論文の概要: ChainV: Atomic Visual Hints Make Multimodal Reasoning Shorter and Better
- arxiv url: http://arxiv.org/abs/2511.17106v1
- Date: Fri, 21 Nov 2025 10:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.96641
- Title: ChainV: Atomic Visual Hints Make Multimodal Reasoning Shorter and Better
- Title(参考訳): ChainV: マルチモーダル推論を短縮し、改善するアトミックなビジュアルヒント
- Authors: Yuan Zhang, Ming Lu, Junwen Pan, Tao Huang, Kuan Cheng, Qi She, Shanghang Zhang,
- Abstract要約: 推論プロセスに視覚的ヒントを動的に統合するフレームワークChainVを提案する。
提案手法は,特に算数集約ベンチマークにおいて,推論精度と効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 59.29940512530982
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in multimodal reasoning models have demonstrated impressive capabilities across text and vision. However, even leading models exhibit redundant self-reflection when generating lengthy reasoning chains. While training-free CoT compression methods have emerged in the LLMs domain, they rely on static visual references and thus provide limited gains for multimodal reasoning. Therefore, we propose ChainV, a framework that dynamically integrates visual hints into the reasoning process, thereby making multimodal reasoning shorter and better. Specifically, ChainV first performs a coarse visual patch selection based on the previous reasoning step, then refines it by identifying the most representative atomic visual hint according to the averaged attention intensity. Additionally, ChainV introduces a consistency-based evaluation mechanism to assess the reliability of the chosen hint, guiding the model to adaptively adjust its level of self-reflection. Eventually, the pixel coordinates of the selected visual hint and its reliability are incorporated into thinking with a Bernoulli stochastic process. Experiments indicate that our method significantly improves reasoning accuracy and efficiency, especially on math-intensive benchmarks where visual hints are crucial for multi-step symbolic reasoning. For example, ChainV achieves $2.3\%$ improvement on the MathVista within MIMO-VL-RL, while reducing inference latency by $51.4\%$ and shortening output token length by $24.5\%$.
- Abstract(参考訳): マルチモーダル推論モデルの最近の進歩は、テキストと視覚にまたがる印象的な能力を示している。
しかし、先行モデルでさえ長い推論連鎖を生成する際に冗長な自己回帰を示す。
トレーニング不要な CoT 圧縮手法が LLMs ドメインに登場したが、静的な視覚参照に依存しており、マルチモーダル推論の利得は限られている。
そこで我々は,視覚的ヒントを推論プロセスに動的に統合し,マルチモーダル推論をより短くするフレームワークChainVを提案する。
特に、ChainVは、まず前回の推論ステップに基づいて粗い視覚的パッチ選択を行い、次に、平均的な注意強度に応じて最も代表的な原子的視覚的ヒントを識別することによってそれを洗練する。
さらに、ChainVは、選択されたヒントの信頼性を評価するための一貫性に基づく評価メカニズムを導入し、モデルに自己回帰のレベルを適応的に調整するように誘導する。
最終的に、選択された視覚的ヒントの画素座標とその信頼性はベルヌーイ確率過程による思考に組み込まれる。
特に多段階の記号推論において視覚的ヒントが不可欠である数学集約型ベンチマークにおいて,提案手法は推論精度と効率を著しく向上することを示す。
例えば、ChainV は MIMO-VL-RL 内の MathVista を 2.3 % 改善し、推論遅延を 51.4 % 削減し、出力トークン長を 24.5 % 短縮する。
関連論文リスト
- Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning [31.727984223052648]
本稿では,最初の統一マルチモーダルCoT型報酬モデルUnifiedReward-Thinkを提案する。
まず、GPT-4oの推論過程を抽出するために、少量の画像生成嗜好データを用いる。
次に、大規模に統一されたマルチモーダル嗜好データを作成し、様々な視覚タスクにわたってモデルの推論プロセスを導出する。
論文 参考訳(メタデータ) (2025-05-06T08:46:41Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。