論文の概要: Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts
- arxiv url: http://arxiv.org/abs/2601.04073v1
- Date: Wed, 07 Jan 2026 16:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.216352
- Title: Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts
- Title(参考訳): クロスモーダル・コンフリクト下における大規模マルチモーダルモデルにおける推論整合性の解析
- Authors: Zhihao Zhu, Jiafeng Liang, Shixin Jiang, Jinlan Fu, Ming Liu, Guanglu Sun, See-Kiong Ng, Bing Qin,
- Abstract要約: テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
- 参考スコア(独自算出の注目度): 74.47786985522762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have demonstrated impressive capabilities in video reasoning via Chain-of-Thought (CoT). However, the robustness of their reasoning chains remains questionable. In this paper, we identify a critical failure mode termed textual inertia, where once a textual hallucination occurs in the thinking process, models tend to blindly adhere to the erroneous text while neglecting conflicting visual evidence. To systematically investigate this, we propose the LogicGraph Perturbation Protocol that structurally injects perturbations into the reasoning chains of diverse LMMs spanning both native reasoning architectures and prompt-driven paradigms to evaluate their self-reflection capabilities. The results reveal that models successfully self-correct in less than 10% of cases and predominantly succumb to blind textual error propagation. To mitigate this, we introduce Active Visual-Context Refinement, a training-free inference paradigm which orchestrates an active visual re-grounding mechanism to enforce fine-grained verification coupled with an adaptive context refinement strategy to summarize and denoise the reasoning history. Experiments demonstrate that our approach significantly stifles hallucination propagation and enhances reasoning robustness.
- Abstract(参考訳): 大型マルチモーダルモデル (LMM) は、Chain-of-Thought (CoT) によるビデオ推論において印象的な機能を示している。
しかしながら、それらの推論連鎖の堅牢性は疑問視されている。
本稿では,テキスト・インテリジェンス(textual inertia)と呼ばれる,テキスト・インテリジェンス(textual inertia)と呼ばれる重要な障害モードを同定する。
これを体系的に検討するために,ネイティブ推論アーキテクチャとプロンプト駆動パラダイムの両方にまたがる多様なLMMの推論チェーンに乱れを構造的に注入し,自己回帰能力を評価するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
これを軽減するために,アクティブビジュアル・コンテクスト・リファインメント(Active Visual-Context Refinement)という,アクティブビジュアル・リグラウンド機構を編成するトレーニングフリー推論パラダイムを導入する。
実験により, 本手法は幻覚の伝播を著しく抑制し, 理性性の向上を図っている。
関連論文リスト
- Interleaved Latent Visual Reasoning with Selective Perceptual Modeling [42.93438443502933]
インターリーブ推論パラダイムは視覚フィードバックでマルチモーダル大言語モデル(MLLM)を強化するが、計算コストの禁止によって妨げられる。
有望な代替手段である、潜伏した視覚的推論は、このボトルネックを回避しますが、現在、重要なトレードオフを強制しています。
IVR(Interleaved Latent Visual Reasoning)は、動的状態の進化を正確に知覚モデリングと統合するフレームワークである。
論文 参考訳(メタデータ) (2025-12-05T12:09:39Z) - Modeling Hierarchical Thinking in Large Reasoning Models [2.429493364781869]
大規模言語モデル(LLM)は、ステップバイステップのソリューションを生成する際に顕著な推論能力を示す。
連鎖推論の例を使って訓練すると、結果として得られたモデルは、人間が使用するものに似た階層的な思考戦略を学ぶように見える。
本稿では, LRMの階層的推論力学を構造的, 解釈可能な抽象化として近似するために, メモリレス有限状態機械の定式化を採用する。
論文 参考訳(メタデータ) (2025-10-25T21:25:30Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。