Fugu-MT 論文翻訳(概要): Unraveling Cross-Modality Knowledge Conflict in Large Vision-Language Models

論文の概要: Unraveling Cross-Modality Knowledge Conflict in Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2410.03659v1
Date: Fri, 11 Oct 2024 15:07:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 20:58:02.703930
Title: Unraveling Cross-Modality Knowledge Conflict in Large Vision-Language Models
Title（参考訳）: 大規模視線言語モデルにおける多言語間知識衝突の解き放つ
Authors: Tinghui Zhu, Qin Liu, Fei Wang, Zhengzhong Tu, Muhao Chen,
Abstract要約: LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
参考スコア（独自算出の注目度）: 33.76903352835436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Vision-Language Models (LVLMs) have demonstrated impressive capabilities for capturing and reasoning over multimodal inputs. However, these models are prone to parametric knowledge conflicts, which arise from inconsistencies of represented knowledge between their vision and language components. In this paper, we formally define the problem of $\textbf{cross-modality parametric knowledge conflict}$ and present a systematic approach to detect, interpret, and mitigate them. We introduce a pipeline that identifies conflicts between visual and textual answers, showing a persistently high conflict rate across modalities in recent LVLMs regardless of the model size. We further investigate how these conflicts interfere with the inference process and propose a contrastive metric to discern the conflicting samples from the others. Building on these insights, we develop a novel dynamic contrastive decoding method that removes undesirable logits inferred from the less confident modality components based on answer confidence. For models that do not provide logits, we also introduce two prompt-based strategies to mitigate the conflicts. Our methods achieve promising improvements in accuracy on both the ViQuAE and InfoSeek datasets. Specifically, using LLaVA-34B, our proposed dynamic contrastive decoding improves an average accuracy of 2.24%.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。しかし、これらのモデルは、そのビジョンと言語構成要素の間の表現された知識の不整合から生じるパラメトリックな知識の矛盾を招きやすい。本稿では,$\textbf{cross-modality parametric knowledge conflict}$の問題を正式に定義し,それらを検出,解釈,緩和するための体系的なアプローチを提案する。モデルのサイズに関わらず,近年のLVLMにおけるモダリティ間のコンフリクトレートが持続的に高いことを示す,視覚的およびテキスト的回答間のコンフリクトを識別するパイプラインを導入する。さらに、これらの競合がどのように推論プロセスに干渉するかを考察し、競合するサンプルを他者から識別するための対照的な指標を提案する。これらの知見に基づいて,回答信頼度に基づく不確実性成分から推定される望ましくないロジットを除去する動的コントラスト復号法を開発した。ログを提供しないモデルに対しては、競合を緩和するための2つのプロンプトベースの戦略を導入します。提案手法は,ViQuAEデータセットとInfoSeekデータセットの両方において,有望な精度向上を実現する。具体的には、LLaVA-34Bを用いて、動的コントラストデコーディングにより平均2.24%の精度が向上する。

関連論文リスト

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering [53.7094431951084]
知識に基づく視覚的質問応答(KB-VQA)は、知識集約的なタスクを扱う大きな可能性を示す。視覚言語モデルにおける静的パラメトリック知識と動的に取得された情報との間には矛盾が生じる。 KB-VQAのトレーニングフリー・コンフリクト対応・相関対応手法としてtextbfCC-VQAを提案する。
論文参考訳（メタデータ） (2026-02-27T11:56:26Z)
Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning [78.86309644343295]
長い連鎖推論におけるマルチモーダルな大言語モデル(MLLM)は、異なる知識源が矛盾する信号を提供するときにしばしば失敗する。我々は、これらの失敗を知識の衝突という統一概念の下で形式化し、入力レベルの客観的衝突とプロセスレベルの効果的な衝突を区別する。本研究は,知識衝突下でのマルチモーダル推論のメカニズムを考察し,長CoT障害の診断と制御を可能にする。
論文参考訳（メタデータ） (2026-02-16T07:10:44Z)
That's Deprecated! Understanding, Detecting, and Steering Knowledge Conflicts in Language Models for Code Generation [55.78914774437411]
大規模言語モデル(LLM)は、パラメトリック知識とプロンプトに含まれる矛盾する情報との相違に直面して振る舞う。このような対立を構築・解釈するためのドメインに依存しないフレームワークを提案する。本研究では, アクティベーションレベルのステアリングが, ランダムベースライン上でのステアリング成功率を最大12.6%向上させることができることを示す。
論文参考訳（メタデータ） (2025-10-21T22:27:56Z)
Robust Multimodal Large Language Models Against Modality Conflict [94.12341487880465]
マルチモーダル大言語モデル(MLLM)は、現実のシナリオにおいて幻覚を起こす傾向がある。我々は、MLLMをジレンマに配置し、幻覚に直接導く異なるモダリティからの入力における固有の矛盾について研究する。モダリティ衝突による幻覚を緩和する3つの方法が提案されている。
論文参考訳（メタデータ） (2025-07-09T11:18:38Z)
FaithfulRAG: Fact-Level Conflict Modeling for Context-Faithful Retrieval-Augmented Generation [37.28571879699906]
検索システムで強化された大規模言語モデル(LLM)は、知識集約的なタスクを扱う上で大きな可能性を示している。本稿では,モデルパラメトリック知識と検索コンテキストの相違を明示的にモデル化することにより,知識の対立を解決する新しいフレームワークであるFaithfulRAGを提案する。
論文参考訳（メタデータ） (2025-06-10T16:02:54Z)
What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models [16.41477610681199]
大規模言語モデルは、しばしばタスクを実行するために文脈入力とパラメトリック知識の両方に依存する。これらの資料は、特に回収された文書がモデルのパラメトリックな信念と矛盾する場合に矛盾する可能性がある。本研究では,LLMの動作を文脈記憶の衝突下で体系的に評価する診断フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-06T19:20:23Z)
KOALA: Knowledge Conflict Augmentations for Robustness in Vision Language Models [6.52323086990482]
segsubは、画像ソースに標的摂動を適用して、視覚言語モデルの堅牢性を研究し改善するフレームワークである。以前の知見とは対照的に,VLMは画像摂動に強い。 GPT-4oによる幻覚と画像コンテキストの関連性を見出した。
論文参考訳（メタデータ） (2025-02-19T00:26:38Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
Analysing the Residual Stream of Language Models Under Knowledge Conflicts [23.96385393039587]
大規模言語モデル(LLM)は、そのパラメータに大量の事実知識を格納することができる。しかし、それらのパラメトリック知識は、文脈で提供される情報と矛盾する可能性がある。これは、古い情報や誤った情報への依存など、望ましくないモデル行動を引き起こす可能性がある。
論文参考訳（メタデータ） (2024-10-21T15:12:51Z)
Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。 MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文参考訳（メタデータ） (2024-10-10T17:31:17Z)
ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文参考訳（メタデータ） (2024-10-05T07:41:17Z)
AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデル(LLM)の文脈における情報と、そのパラメータに格納された知識との相違から生じる。コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
論文参考訳（メタデータ） (2024-09-11T16:35:18Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-15T02:59:10Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文参考訳（メタデータ） (2022-09-14T22:04:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。