論文の概要: Reasoning Dynamics and the Limits of Monitoring Modality Reliance in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.14888v1
- Date: Thu, 16 Apr 2026 11:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.869175
- Title: Reasoning Dynamics and the Limits of Monitoring Modality Reliance in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける推論ダイナミクスとモダリティ信頼性の限界
- Authors: Danae Sánchez Villegas, Samuel Lewis-Lim, Nikolaos Aletras, Desmond Elliott,
- Abstract要約: 視覚言語モデル(VLM)における推論ダイナミクスの解析
モデルが慣性に答える傾向にあり、予測に対する早期のコミットメントが強化されていることが分かっています。
Reasoning-trained(推論訓練されたモデル)は、明らかにこのキューを指す傾向が強いが、長いCoTは依然として視覚的に接地しているように見える。
- 参考スコア(独自算出の注目度): 34.388508959416725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision language models (VLMs) offer reasoning capabilities, yet how these unfold and integrate visual and textual information remains unclear. We analyze reasoning dynamics in 18 VLMs covering instruction-tuned and reasoning-trained models from two different model families. We track confidence over Chain-of-Thought (CoT), measure the corrective effect of reasoning, and evaluate the contribution of intermediate reasoning steps. We find that models are prone to answer inertia, in which early commitments to a prediction are reinforced, rather than revised during reasoning steps. While reasoning-trained models show stronger corrective behavior, their gains depend on modality conditions, from text-dominant to vision-only settings. Using controlled interventions with misleading textual cues, we show that models are consistently influenced by these cues even when visual evidence is sufficient, and assess whether this influence is recoverable from CoT. Although this influence can appear in the CoT, its detectability varies across models and depends on what is being monitored. Reasoning-trained models are more likely to explicitly refer to the cues, but their longer and fluent CoTs can still appear visually grounded while actually following textual cues, obscuring modality reliance. In contrast, instruction-tuned models refer to the cues less explicitly, but their shorter traces reveal inconsistencies with the visual input. Taken together, these findings indicate that CoT provides only a partial view of how different modalities drive VLM decisions, with important implications for the transparency and safety of multimodal systems.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は推論機能を提供しているが、これらの展開と視覚情報とテキスト情報の統合はいまだに不明である。
我々は2つの異なるモデルファミリの命令調整モデルと推論訓練モデルをカバーする18個のVLMの推論ダイナミクスを解析する。
我々は、CoT(Chain-of-Thought)に対する信頼度を追跡し、推論の正当性を測定し、中間的推論ステップの寄与を評価する。
我々は、モデルが慣性に答える傾向にあり、予測に対する早期のコミットメントは、推論ステップ中に修正されるのではなく、強化されていることを発見した。
推論学習されたモデルはより強い修正行動を示すが、その利得はテキスト優位から視覚のみの設定に至るまで、モダリティ条件に依存する。
本研究は, 視覚的証拠が十分である場合でも, モデルが一定の影響を受けており, この影響がCoTから回復可能であるかどうかを検証した。
この影響はCoTに現れるが、検出可能性はモデルによって異なり、監視対象によって異なる。
Reasoning-trained Model(英語版)は、明らかにこのキューを指す傾向が強いが、長いCoTは、実際にテキストのキューに従っている間、視覚的に座屈し、モダリティに依存しない。
対照的に、命令で調整されたモデルは、明快さをあまり示さないが、その短いトレースは、視覚的な入力と矛盾していることを示している。
これらの知見を総合すると、CoTは、異なるモダリティがVLM決定をいかに促すかの部分的なビューのみを提供し、マルチモーダルシステムの透明性と安全性に重要な意味を持つことを示している。
関連論文リスト
- Walk the Talk: Bridging the Reasoning-Action Gap for Thinking with Images via Multimodal Agentic Policy Optimization [89.68681087743876]
MLLM(Multimodal Large Language Models)は,マルチターン推論において視覚ツールを積極的に呼び出すことによって,イメージで考えるモデルにインセンティブを与えている。
結果に基づく報酬を頼りにする一般的な強化学習の実践は、テキストの妥当性が経営幹部の失敗を隠蔽するという事実を無視します。
マルチモーダルエージェントポリシー最適化(MAPO)を導入し、テキスト推論とモデルが生成する視覚行動のギャップを埋める。
論文 参考訳(メタデータ) (2026-04-08T07:48:07Z) - Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs [60.93949629734977]
モデル生成論理における幻覚を軽減するために,視覚コントラスト型自己学習共振器(VC-STaR)を提案する。
多様なVQAデータセットを収集し、マルチモーダルな類似性に応じてコントラストペアをキュレートし、VC-STaRを用いて合理性を生成する。
大規模な実験によると、VC-STaRは既存の自己改善アプローチを上回るだけでなく、SoTA視覚推論データセットで微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2026-03-03T03:18:31Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - On the Faithfulness of Visual Thinking: Measurement and Enhancement [37.52991654147004]
最近の視覚言語モデルは、強化微調整後、視覚テキストのマルチモーダル・チェーン・オブ・ソート・トレースを生成することができる。
MCoTに組み込まれた視覚情報はしばしば不正確であるが、正確な答えは得られない。
本稿では,Sufficient-Component Cause Model (SCCM) 学習と呼ばれる新しいMCoT学習戦略を提案する。
論文 参考訳(メタデータ) (2025-10-27T16:15:54Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Interpreting and Controlling Vision Foundation Models via Text
Explanations [45.30541722925515]
本稿では,視覚変換器の潜在トークンを自然言語で解釈するフレームワークを提案する。
我々のアプローチは、追加のモデルトレーニングやデータ収集を必要とせずに、モデルの視覚的推論手順の理解を可能にする。
論文 参考訳(メタデータ) (2023-10-16T17:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。