論文の概要: How Modality Shapes Perception and Reasoning: A Study of Error Propagation in ARC-AGI
- arxiv url: http://arxiv.org/abs/2511.15717v1
- Date: Tue, 11 Nov 2025 19:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.276799
- Title: How Modality Shapes Perception and Reasoning: A Study of Error Propagation in ARC-AGI
- Title(参考訳): モダリティが知覚と推論をどう形作るか:ARC-AGIにおける誤り伝播の研究
- Authors: Bo Wen, Chen Wang, Erhan Bilal,
- Abstract要約: ARC-AGIとARC-AGI-2は、小さな色量子格子上の一般化スルー合成を測定する。
最近の命令ファーストシステムは、グリッドを生成-実行-選択ループで実行される簡潔な自然言語またはDSLルールに変換する。
- 参考スコア(独自算出の注目度): 7.226300346775942
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: ARC-AGI and ARC-AGI-2 measure generalization-through-composition on small color-quantized grids, and their prize competitions make progress on these harder held-out tasks a meaningful proxy for systematic generalization. Recent instruction-first systems translate grids into concise natural-language or DSL rules executed in generate-execute-select loops, yet we lack a principled account of how encodings shape model perception and how to separate instruction errors from execution errors. We hypothesize that modality imposes perceptual bottlenecks -- text flattens 2D structure into 1D tokens while images preserve layout but can introduce patch-size aliasing -- thereby shaping which grid features are reliably perceived. To test this, we isolate perception from reasoning across nine text and image modalities using a weighted set-disagreement metric and a two-stage reasoning pipeline, finding that structured text yields precise coordinates on sparse features, images capture 2D shapes yet are resolution-sensitive, and combining them improves execution (about 8 perception points; about 0.20 median similarity). Overall, aligning representations with transformer inductive biases and enabling cross-validation between text and image yields more accurate instructions and more reliable execution without changing the underlying model.
- Abstract(参考訳): ARC-AGI と ARC-AGI-2 は、小さな色の量子化された格子上での一般化-スルー合成を測定し、それらの懸賞競争は、これらの難解な保留タスクを体系的な一般化の有意義なプロキシとして前進させる。
最近の命令ファーストシステムは、グリッドを生成-実行-選択ループで実行される簡潔な自然言語またはDSLルールに変換する。
画像がレイアウトを保存する一方で、2D構造を1Dトークンにフラット化するが、パッチサイズのエイリアスを導入することができる。
これをテストするために、重み付けされた集合認識距離と2段階の推論パイプラインを用いて、9つのテキストと画像のモダリティ間の推論から認識を分離し、構造化されたテキストがスパース特徴の正確な座標を得られること、画像がまだ解像度に敏感な2D形状をキャプチャし、それらを組み合わせて実行を改善する(約8ポイント、約0.20中央値類似度)。
全体として、表現をトランスフォーマーの帰納バイアスに整合させ、テキストと画像間のクロスバリデーションを可能にすることで、基礎となるモデルを変更することなく、より正確な命令とより信頼性の高い実行が得られる。
関連論文リスト
- DECOR:Decomposition and Projection of Text Embeddings for Text-to-Image Customization [15.920735314050296]
本研究では、テキスト埋め込み行列を分解し、埋め込み空間の幾何学を理解するためにコンポーネント分析を行う。
不要なトークンベクトルに対してベクトル空間にテキスト埋め込みを投影するDECORを提案する。
実験により、DECORは最先端のカスタマイズモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-12T10:59:44Z) - TPIE: Topology-Preserved Image Editing With Text Instructions [14.399084325078878]
テキストによるトポロジー保存画像編集(TPIE)
TPIEは、新しく生成されたサンプルを与えられた入力テンプレートの変形可能なバリエーションとして扱い、制御可能かつ構造保存可能な編集を可能にする。
TPIEを2次元画像と3次元画像の多種多様なセットで検証し,最新の画像編集手法と比較した。
論文 参考訳(メタデータ) (2024-11-22T22:08:27Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - Scene Text Recognition With Finer Grid Rectification [6.598317412802175]
本稿では、より微細な修正モジュールと双方向の注意認識ネットワーク(Firbarn)から構成されるエンドツーエンドのトレーニング可能なモデルを提案する。
標準ベンチマークでの広範な評価の結果は、Firbarnの以前の業績、特に不規則なデータセットよりも優れていた。
論文 参考訳(メタデータ) (2020-01-26T02:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。