論文の概要: Look on Demand: A Cognitive Scheduling Framework for Visual Evidence Acquisition in Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2605.28160v1
- Date: Wed, 27 May 2026 08:43:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.902869
- Title: Look on Demand: A Cognitive Scheduling Framework for Visual Evidence Acquisition in Multimodal Reasoning
- Title(参考訳): 需要:マルチモーダル推論における視覚的エビデンス獲得のための認知スケジューリングフレームワーク
- Authors: Yang Zhang, Xiaoshuai Sun, Rui Zhao, Wujin Sun, Yidong Chen, Jiayi Ji, Qian Chen, Rongrong Ji,
- Abstract要約: 我々は、視覚的証拠が推論プロセスにどのように、いつ導入されるかが中心的な課題であると主張している。
この知見により,言語モデルが推論プロセスを制御するマルチモーダル推論フレームワークCSMRを提案する。
- 参考スコア(独自算出の注目度): 82.86343313807158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multimodal reasoning approaches predominantly follow two paradigms: converting visual inputs into text prior to reasoning, or performing end-to-end reasoning within a unified vision-language representation space. Despite their empirical progress, both paradigms suffer from fundamental structural limitations. The former relies on static visual-to-text conversion, which tends to compress and lose fine-grained visual details. The latter is prone to linguistic dominance induced by joint optimization and attention mechanisms, leading to systematically weakened faithfulness to visual evidence during reasoning. In this work, we argue that a central challenge is how and when visual evidence is introduced into the reasoning process. Motivated by this insight, we propose CSMR, a multimodal reasoning framework in which a language model controls the reasoning process by deciding when to invoke an independent visual perception module to acquire task-relevant visual evidence. Experiments across multiple multimodal reasoning benchmarks show that CSMR consistently outperforms representative baseline methods in accuracy under a zero-shot setting. Further experimental analysis confirms that these advantages primarily arise from the proposed cognitive scheduling mechanism.
- Abstract(参考訳): 既存のマルチモーダル推論アプローチは主に2つのパラダイムに従う: 推論に先立って視覚入力をテキストに変換する、あるいは統一された視覚言語表現空間内でエンドツーエンドの推論を実行する。
経験的な進歩にもかかわらず、どちらのパラダイムも基本的な構造的制限に悩まされている。
前者は静的なビジュアル・テキスト変換に依存しており、細かな視覚的詳細を圧縮して失う傾向がある。
後者は、共同最適化と注意機構によって引き起こされる言語優位性に傾向があり、推論中の視覚的証拠に対する体系的に忠実性を弱める。
本研究では,視覚的エビデンスを推論プロセスにどのように,いつ導入するかを論じる。
そこで本研究では,タスク関連視覚証拠を取得するために,独立した視覚認識モジュールをいつ呼び出すかを決定することによって,言語モデルが推論プロセスを制御する多モーダル推論フレームワークCSMRを提案する。
複数のマルチモーダル推論ベンチマークによる実験により、CSMRはゼロショット設定下での精度で代表的ベースライン法より一貫して優れていた。
さらなる実験的分析により、これらの利点が主に提案された認知スケジューリングメカニズムから生じることが確認された。
関連論文リスト
- Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space [46.05748768260013]
テスト時間動的マルチモーダル遅延推論フレームワークを提案する。
信頼誘導の潜在ポリシー勾配最適化を、詳細な推論のために潜在シンクトークンに採用する。
7つのマルチモーダル推論ベンチマークと様々なモデルアーキテクチャによる実験により、DMLRは推論性能と知覚性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-12-14T10:07:45Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models [43.465268635499754]
テストタイム計算は、拡張推論チェーンを生成するために、大きな言語モデルに権限を与えた。
世代が長くなるにつれて、モデルは画像付きコンテンツから遠ざかっていき、言語優先に大きく依存する傾向にある。
論文 参考訳(メタデータ) (2025-05-23T05:08:40Z) - Mind with Eyes: from Language Reasoning to Multimodal Reasoning [19.719640188412463]
言語モデルは近年、推論の領域に進出していますが、より包括的で人間的な認知能力を達成する可能性を完全に解き放つことは、マルチモーダルな推論を通じて行われています。
この調査は、最近のマルチモーダル推論アプローチの体系的な概要を提供し、それらを言語中心のマルチモーダル推論と協調マルチモーダル推論の2つのレベルに分類する。
論文 参考訳(メタデータ) (2025-03-23T13:40:44Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。