論文の概要: Learning When to Look: A Disentangled Curriculum for Strategic Perception in Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2512.17227v1
- Date: Fri, 19 Dec 2025 04:25:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.247729
- Title: Learning When to Look: A Disentangled Curriculum for Strategic Perception in Multimodal Reasoning
- Title(参考訳): 視線を学習する:マルチモーダル推論における戦略的知覚のための歪んだカリキュラム
- Authors: Siqi Yang, Zilve Gao, Haibo Qiu, Fanfan Liu, Peng Shi, Zhixiong Zeng, Qingmin Liao, Lin Ma,
- Abstract要約: 重要な障害モードは「視覚的忘れ」であり、推論が拡張するにつれて、モデルは徐々に視覚的基盤を失う。
これらのスキルを解体する新しいカリキュラムベースのフレームワークを提案する。
私たちの貢献には、これらの2つの欠陥の形式化、それに対処する原則化された2段階のフレームワークの開発が含まれます。
- 参考スコア(独自算出の注目度): 35.206515263989566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) demonstrate significant potential but remain brittle in complex, long-chain visual reasoning tasks. A critical failure mode is "visual forgetting", where models progressively lose visual grounding as reasoning extends, a phenomenon aptly described as "think longer, see less". We posit this failure stems from current training paradigms prematurely entangling two distinct cognitive skills: (1) abstract logical reasoning "how-to-think") and (2) strategic visual perception ("when-to-look"). This creates a foundational cold-start deficiency -- weakening abstract reasoning -- and a strategic perception deficit, as models lack a policy for when to perceive. In this paper, we propose a novel curriculum-based framework to disentangle these skills. First, we introduce a disentangled Supervised Fine-Tuning (SFT) curriculum that builds a robust abstract reasoning backbone on text-only data before anchoring it to vision with a novel Perception-Grounded Chain-of-Thought (PG-CoT) paradigm. Second, we resolve the strategic perception deficit by formulating timing as a reinforcement learning problem. We design a Pivotal Perception Reward that teaches the model when to look by coupling perceptual actions to linguistic markers of cognitive uncertainty (e.g., "wait", "verify"), thereby learning an autonomous grounding policy. Our contributions include the formalization of these two deficiencies and the development of a principled, two-stage framework to address them, transforming the model from a heuristic-driven observer to a strategic, grounded reasoner. \textbf{Code}: \url{https://github.com/gaozilve-max/learning-when-to-look}.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、複雑な長鎖の視覚的推論タスクにおいて、大きな可能性を秘めている。
重要な失敗モードは「視覚的忘れ」であり、推論が拡大するにつれて、モデルが徐々に視覚的根拠を失う現象である。
この失敗は、(1)抽象的論理的推論(Abstract logical reasoning "how-to-think")と(2)戦略的視覚的知覚("When-to-look")という、2つの異なる認知スキルを早期に結集する現在の訓練パラダイムに由来すると仮定する。
これは、抽象的な推論を弱めるという基本的なコールドスタートの欠如と、モデルがいつ認識すべき政策を欠いているという戦略的認識の欠如を生み出します。
本稿では,これらのスキルを解体する新しいカリキュラムベースのフレームワークを提案する。
まず、テキストのみのデータに頑健な抽象的推論バックボーンを構築し、それを視界に固定し、新しいPG-CoT(Perception-Grounded Chain-of-Thought)パラダイムを導入する。
第2に、強化学習問題としてタイミングを定式化し、戦略的認知障害を解消する。
Pivotal Perception Rewardは、認知の不確実性の言語マーカー(例えば、"wait"、"verify"など)に知覚的アクションを結合することによって、自律的な基盤ポリシーを学ぶためのモデルを教える。
私たちの貢献には、これらの2つの欠陥の形式化、それに対処する原則化された2段階のフレームワークの開発が含まれます。
\textbf{Code}: \url{https://github.com/gaozilve-max/learning-when-to-look}
関連論文リスト
- Think Visually, Reason Textually: Vision-Language Synergy in ARC [94.15522924153264]
ARC-AGIは、概念ルールの誘導と新しいタスクへの転送のための厳格なテストベッドである。
既存のほとんどの手法は、ARC-AGIを純粋にテキストによる推論タスクとして扱い、人間が視覚的抽象化に強く依存しているという事実を見落としている。
VLSR(Vision-Language Synergy Reasoning)とMSSC(Modality-Switch Self-Correction)の2つの相乗的戦略を導入する。
本研究は,視覚的抽象と言語的推論を一体化させることが,汎用的な人間的な知性を実現するための重要なステップであることを示唆している。
論文 参考訳(メタデータ) (2025-11-19T18:59:04Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models [17.431298099935344]
大規模言語モデル(LLM)において、推論が重要な機能として現れている。
近年の研究では、視覚言語モデル(VLM)への推論の拡張が試みられている。
本研究は、マルチモーダル推論の二重性を明らかにし、他の基本的な視覚的問題に対する認識障害につながった。
本稿では,視覚的接地軌道に対する推論過程を明確に把握する,シンプルかつ効果的な手法であるビジョン・アンコレッド・ポリシー・オプティマイズ(VAPO)を提案する。
論文 参考訳(メタデータ) (2025-09-30T06:37:47Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - Does Deep Learning Learn to Abstract? A Systematic Probing Framework [69.2366890742283]
抽象化はディープラーニングモデルにとって望ましい機能であり、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用することを意味する。
本稿では,伝達可能性の観点から,ディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。