論文の概要: Think Visually, Reason Textually: Vision-Language Synergy in ARC
- arxiv url: http://arxiv.org/abs/2511.15703v1
- Date: Wed, 19 Nov 2025 18:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.950902
- Title: Think Visually, Reason Textually: Vision-Language Synergy in ARC
- Title(参考訳): 視覚的に考える, テキスト的に考える: ARCにおける視覚言語シナジー
- Authors: Beichen Zhang, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang,
- Abstract要約: ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。
画像が不正確なルールの実行によってパフォーマンスが低下するにつれて、ARC-AGIグリッドをネイティブにレンダリングする。
我々は、ARC-AGIをモダリティ整列サブタスクに分解するVLSR(Vision-Language Synergy Reasoning)と、本質的な誤り訂正のためのテキストベースの推論を視覚を利用して検証するMSSC(Modality-Switch Self-Correction)という2つの相乗的戦略を導入する。
- 参考スコア(独自算出の注目度): 94.15522924153264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstract reasoning from minimal examples remains a core unsolved problem for frontier foundation models such as GPT-5 and Grok 4. These models still fail to infer structured transformation rules from a handful of examples, which is a key hallmark of human intelligence. The Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) provides a rigorous testbed for this capability, demanding conceptual rule induction and transfer to novel tasks. Most existing methods treat ARC-AGI as a purely textual reasoning task, overlooking the fact that humans rely heavily on visual abstraction when solving such puzzles. However, our pilot experiments reveal a paradox: naively rendering ARC-AGI grids as images degrades performance due to imprecise rule execution. This leads to our central hypothesis that vision and language possess complementary strengths across distinct reasoning stages: vision supports global pattern abstraction and verification, whereas language specializes in symbolic rule formulation and precise execution. Building on this insight, we introduce two synergistic strategies: (1) Vision-Language Synergy Reasoning (VLSR), which decomposes ARC-AGI into modality-aligned subtasks; and (2) Modality-Switch Self-Correction (MSSC), which leverages vision to verify text-based reasoning for intrinsic error correction. Extensive experiments demonstrate that our approach yields up to a 4.33% improvement over text-only baselines across diverse flagship models and multiple ARC-AGI tasks. Our findings suggest that unifying visual abstraction with linguistic reasoning is a crucial step toward achieving generalizable, human-like intelligence in future foundation models. Source code will be released soon.
- Abstract(参考訳): 最小例からの抽象的推論は、GPT-5やGrok 4のようなフロンティア基礎モデルのコア未解決問題のままである。
これらのモデルは、人間の知性の重要な指標である少数の例から構造化された変換規則を推論することができない。
ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)は、この能力に対する厳格なテストベッドを提供し、概念的なルールの誘導と新しいタスクへの転送を要求する。
既存のほとんどの手法は、ARC-AGIを純粋にテキストによる推論タスクとして扱い、人間がそのようなパズルを解く際に視覚的抽象化に大きく依存しているという事実を見落としている。
ARC-AGIグリッドは、画像が不正確なルールの実行によって性能が低下するので、ネイティブにレンダリングする。
視覚はグローバルなパターンの抽象化と検証をサポートし、言語は象徴的な規則の定式化と正確な実行を専門としている。
この知見に基づいて,(1)ARC-AGIをモダリティ・アライン・サブタスクに分解する視覚言語構文推論(VLSR),(2)モダリティ・スイッチ自己補正(MSSC)の2つの相乗的戦略を導入する。
大規模な実験により、我々のアプローチは多様なフラッグシップモデルと複数のARC-AGIタスクにまたがるテキストのみのベースラインよりも最大4.33%改善することが示された。
この結果から,言語的推論による視覚的抽象概念の統一は,将来の基盤モデルにおいて,一般化可能な人間的な知性を達成するための重要なステップであることが示唆された。
ソースコードはまもなくリリースされる。
関連論文リスト
- ARC Is a Vision Problem! [50.59206008530851]
視覚パラダイム内のARCを画像から画像への変換問題として定義する。
私たちのフレームワークであるVision ARCは、ARC-1ベンチマークで60.4%の精度を実現しています。
論文 参考訳(メタデータ) (2025-11-18T18:59:49Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - EasyARC: Evaluating Vision Language Models on True Visual Reasoning [0.0]
本稿では,マルチイメージ,マルチステップ推論,自己補正を必要とする視覚言語ベンチマークであるEasyARCを紹介する。
EasyARCは手続き的に生成され、完全に検証可能で、スケーラブルであり、強化学習パイプラインに最適である。
我々は最先端のビジョン言語モデルをベンチマークし、その失敗モードを分析する。
論文 参考訳(メタデータ) (2025-06-13T09:03:33Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and
the Importance of Object-based Representations [50.431003245201644]
GPT-4 は 1D-ARC や単純な ARC サブセットのような非言語領域で完全に「推論」できないことを示す。
本稿では,外部ツールから得られるオブジェクトベース表現を提案する。これにより,解決されたARCタスクのパフォーマンスがほぼ倍増し,より簡単な1D-ARC上でのほぼ完璧なスコアが得られた。
論文 参考訳(メタデータ) (2023-05-26T16:32:17Z) - Abstract Visual Reasoning Enabled by Language [8.627180519837657]
ARCを解くための一般学習型フレームワークを提案する。
タスクをビジョンから言語領域に変換することに集中しています。
言語と視覚のこの構成により、各段階で事前訓練されたモデルを利用することができる。
論文 参考訳(メタデータ) (2023-03-07T17:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。