論文の概要: Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning
- arxiv url: http://arxiv.org/abs/2602.14518v1
- Date: Mon, 16 Feb 2026 07:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.243098
- Title: Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning
- Title(参考訳): マルチモーダル長鎖推論における知識衝突の診断
- Authors: Jing Tang, Kun Wang, Haolang Lu, Hongjin Chen, KaiTao Chen, Zhongxiang Sun, Qiankun Li, Lingjuan Lyu, Guoshun Nan, Zhigang Zeng,
- Abstract要約: 長い連鎖推論におけるマルチモーダルな大言語モデル(MLLM)は、異なる知識源が矛盾する信号を提供するときにしばしば失敗する。
我々は、これらの失敗を知識の衝突という統一概念の下で形式化し、入力レベルの客観的衝突とプロセスレベルの効果的な衝突を区別する。
本研究は,知識衝突下でのマルチモーダル推論のメカニズムを考察し,長CoT障害の診断と制御を可能にする。
- 参考スコア(独自算出の注目度): 78.86309644343295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) in long chain-of-thought reasoning often fail when different knowledge sources provide conflicting signals. We formalize these failures under a unified notion of knowledge conflict, distinguishing input-level objective conflict from process-level effective conflict. Through probing internal representations, we reveal that: (I) Linear Separability: different conflict types are explicitly encoded as linearly separable features rather than entangled; (II) Depth Localization: conflict signals concentrate in mid-to-late layers, indicating a distinct processing stage for conflict encoding; (III) Hierarchical Consistency: aggregating noisy token-level signals along trajectories robustly recovers input-level conflict types; and (IV) Directional Asymmetry: reinforcing the model's implicit source preference under conflict is far easier than enforcing the opposite source. Our findings provide a mechanism-level view of multimodal reasoning under knowledge conflict and enable principled diagnosis and control of long-CoT failures.
- Abstract(参考訳): 長い連鎖推論におけるマルチモーダルな大言語モデル(MLLM)は、異なる知識源が矛盾する信号を提供するときにしばしば失敗する。
我々は、これらの失敗を知識の衝突という統一概念の下で形式化し、入力レベルの客観的衝突とプロセスレベルの効果的な衝突を区別する。
I) 線形分離性: 異なるコンフリクト型は、エンタングルドではなく、明確に線形分離可能な特徴としてエンコードされている; (II) ディープトローカライゼーション: コンフリクト信号は、コンフリクトエンコーディングの異なる処理段階を示す中間から後期の層に集中している; (III) 階層的一貫性: トラジェクトリに沿ってノイズの多いトークンレベルの信号を集約することで、入力レベルのコンフリクトタイプを堅牢に回復する; (IV) ディレクショナル非対称性: モデルの暗黙的なソース選好の強化は、対立するソースを強制するよりもはるかに容易である。
本研究は,知識衝突下でのマルチモーダル推論のメカニズムを考察し,長CoT障害の診断と制御を可能にする。
関連論文リスト
- Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。
しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。
我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文 参考訳(メタデータ) (2025-09-28T08:46:11Z) - MAGIC: A Multi-Hop and Graph-Based Benchmark for Inter-Context Conflicts in Retrieval-Augmented Generation [7.927396904317054]
RAGシステムでは、検索された文書が互いに矛盾したり、モデルのパラメトリックな知識と矛盾することがある。
本稿では,2つの類似しているが異なる文脈間の相違を多様かつ微妙に生成する知識グラフ(KG)に基づくフレームワークを提案する。
我々のベンチマークであるMAGICの実験結果から,LLMの内部動作に関する興味深い知見が得られた。
論文 参考訳(メタデータ) (2025-07-29T07:19:49Z) - Robust Multimodal Large Language Models Against Modality Conflict [94.12341487880465]
マルチモーダル大言語モデル(MLLM)は、現実のシナリオにおいて幻覚を起こす傾向がある。
我々は、MLLMをジレンマに配置し、幻覚に直接導く異なるモダリティからの入力における固有の矛盾について研究する。
モダリティ衝突による幻覚を緩和する3つの方法が提案されている。
論文 参考訳(メタデータ) (2025-07-09T11:18:38Z) - Conflicts in Texts: Data, Implications and Challenges [58.03478157713084]
矛盾は、状況の複雑さ、説明と対処が必要な変更、データアノテーションの難しさ、生成された出力の誤りを反映する可能性がある。
本調査ではこれらの矛盾を,(1)事実的矛盾,主観的偏見,および複数の視点が矛盾を生じさせるWeb上の自然テキスト,(2)注釈者がモデルトレーニングに影響を及ぼす注釈付きデータ,(3)幻覚と知識の衝突が発生するモデルインタラクションの3つの重要な領域に分類する。
我々は、対立する情報をより効果的に推論し、調整できる紛争対応NLPシステムの開発における重要な課題と今後の方向性を強調した。
論文 参考訳(メタデータ) (2025-04-28T04:24:01Z) - Multi-level Conflict-Aware Network for Multi-modal Sentiment Analysis [6.168616672805216]
マルチモーダル感情分析のための新しいマルチレベルコンフリクト・アウェア・ネットワーク(MCAN)を提案する。
MCANは段階的にアライメントとコンフリクトの構成要素を、一様および二様表現から分離する。
コンフリクトモデリングブランチでは、表現レベルと予測出力レベルの両方で差分制約を行う。
論文 参考訳(メタデータ) (2025-02-13T09:14:36Z) - ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:41:17Z) - Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。
これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。
我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。