論文の概要: When Seeing Overrides Knowing: Disentangling Knowledge Conflicts in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.13868v1
- Date: Fri, 18 Jul 2025 12:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.283771
- Title: When Seeing Overrides Knowing: Disentangling Knowledge Conflicts in Vision-Language Models
- Title(参考訳): オーバーライドを見た場合:ビジョンランゲージモデルにおける知識紛争を解消する
- Authors: Francesco Ortu, Zhijing Jin, Diego Doimo, Alberto Cazzaniga,
- Abstract要約: 我々は,視覚言語モデル(VLM)がモーダル間の衝突を解決するために使用するメカニズムを解析する。
私たちは、紛争を制御する小さな首のセットをロジット検査でローカライズします。
このような頭部のピンポイントからの注意は、視覚的オーバーライドを駆動する局所化画像領域に向けられ、精度において勾配に基づく属性よりも優れていた。
- 参考スコア(独自算出の注目度): 13.390492503308792
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-language models (VLMs) increasingly leverage diverse knowledge sources to address complex tasks, often encountering conflicts between their internal parametric knowledge and external information. Knowledge conflicts can result in hallucinations and unreliable responses, but the mechanisms governing such interactions remain unknown. To address this gap, we analyze the mechanisms that VLMs use to resolve cross-modal conflicts by introducing a dataset of multimodal counterfactual queries that deliberately contradict internal commonsense knowledge. We localize with logit inspection a small set of heads that control the conflict. Moreover, by modifying these heads, we can steer the model towards its internal knowledge or the visual inputs. Finally, we show that attention from such heads pinpoints localized image regions driving visual overrides, outperforming gradient-based attribution in precision.
- Abstract(参考訳): 視覚言語モデル(VLM)は、複雑なタスクに対処するために多様な知識ソースを活用するようになり、しばしば内部のパラメトリック知識と外部情報の衝突に遭遇する。
知識の衝突は幻覚や信頼できない反応をもたらすことがあるが、そのような相互作用を管理するメカニズムはいまだ不明である。
このギャップに対処するために、VLMが内部コモンセンス知識と意図的に矛盾するマルチモーダル対実クエリのデータセットを導入することで、クロスモーダルコンフリクトを解決するために使用するメカニズムを解析する。
私たちは、紛争を制御する小さな首のセットをロジット検査でローカライズします。
さらに、これらの頭部を変更することで、内部知識や視覚的な入力に向けてモデルを操ることができる。
最後に、これらのヘッドピンポイントからの注意は、視覚的オーバーライドを駆動する局所的な画像領域に向けられ、精度において勾配に基づく属性よりも優れることを示す。
関連論文リスト
- MAGIC: A Multi-Hop and Graph-Based Benchmark for Inter-Context Conflicts in Retrieval-Augmented Generation [4.177310099979434]
RAGシステムでは、検索された文書が互いに矛盾したり、モデルのパラメトリックな知識と矛盾することがある。
本稿では,2つの類似しているが異なる文脈間の相違を多様かつ微妙に生成する知識グラフ(KG)に基づくフレームワークを提案する。
我々のベンチマークであるMAGICの実験結果から,LLMの内部動作に関する興味深い知見が得られた。
論文 参考訳(メタデータ) (2025-07-29T07:19:49Z) - Robust Multimodal Large Language Models Against Modality Conflict [94.12341487880465]
マルチモーダル大言語モデル(MLLM)は、現実のシナリオにおいて幻覚を起こす傾向がある。
我々は、MLLMをジレンマに配置し、幻覚に直接導く異なるモダリティからの入力における固有の矛盾について研究する。
モダリティ衝突による幻覚を緩和する3つの方法が提案されている。
論文 参考訳(メタデータ) (2025-07-09T11:18:38Z) - Benchmarking Multimodal Knowledge Conflict for Large Multimodal Models [23.37800506729006]
本稿では,コンテキストメモリとコンテキスト間の両方のシナリオにおいて,現実的知識衝突を評価するベンチマークであるMMKC-Benchを提案する。
MMKC-Benchには1,573のナレッジインスタンスと,23種類の広範にわたる3,381のイメージが含まれている。
以上の結果から,現在のLMMは知識の衝突を認識する能力があるが,外的証拠よりも内的パラメトリック知識を好む傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-26T04:39:30Z) - Conflicts in Texts: Data, Implications and Challenges [58.03478157713084]
矛盾は、状況の複雑さ、説明と対処が必要な変更、データアノテーションの難しさ、生成された出力の誤りを反映する可能性がある。
本調査ではこれらの矛盾を,(1)事実的矛盾,主観的偏見,および複数の視点が矛盾を生じさせるWeb上の自然テキスト,(2)注釈者がモデルトレーニングに影響を及ぼす注釈付きデータ,(3)幻覚と知識の衝突が発生するモデルインタラクションの3つの重要な領域に分類する。
我々は、対立する情報をより効果的に推論し、調整できる紛争対応NLPシステムの開発における重要な課題と今後の方向性を強調した。
論文 参考訳(メタデータ) (2025-04-28T04:24:01Z) - SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models [6.52323086990482]
視覚言語モデル(VLM)は、高度なマルチモーダル推論を実証するが、知識の衝突に直面した場合には幻覚を起こす傾向がある。
本研究は,VLMレジリエンスを知識衝突に対して調査するために,目標画像摂動を適用するフレームワークであるsegsubを紹介する。
論文 参考訳(メタデータ) (2025-02-19T00:26:38Z) - Analysing the Residual Stream of Language Models Under Knowledge Conflicts [23.96385393039587]
大規模言語モデル(LLM)は、そのパラメータに大量の事実知識を格納することができる。
しかし、それらのパラメトリック知識は、文脈で提供される情報と矛盾する可能性がある。
これは、古い情報や誤った情報への依存など、望ましくないモデル行動を引き起こす可能性がある。
論文 参考訳(メタデータ) (2024-10-21T15:12:51Z) - Insight Over Sight: Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベル・ビジョン・知識衝突の問題について考察する。
MLLMにおけるこれらの競合をシミュレートし、評価するために設計された入力を生成するために、人間のループ品質制御を付加した自動フレームワークを導入する。
このフレームワークを用いて、374のオリジナル画像と1,122の高品質な質問応答対からなる診断ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:41:17Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Cutting Off the Head Ends the Conflict: A Mechanism for Interpreting and
Mitigating Knowledge Conflicts in Language Models [18.2500350157507]
内部記憶と外部コンテキストは必然的に衝突し、言語モデル(LM)内の知識の衝突につながる
モデルパラメータを更新することなく、対立する注意を抑えることで、知識の衝突を効果的に軽減できるPatH PatcHing (PH3) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T08:34:41Z) - Resolving Knowledge Conflicts in Large Language Models [46.903549751371415]
大規模言語モデル(LLM)はしばしば知識の衝突に遭遇する。
知識衝突が発生した場合のLLMのデシラタとは何か,既存のLLMがそれを満たすのかを問う。
文脈知識の矛盾をシミュレートする評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:57:45Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。