論文の概要: Benchmarking Multimodal Knowledge Conflict for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2505.19509v1
- Date: Mon, 26 May 2025 04:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.175987
- Title: Benchmarking Multimodal Knowledge Conflict for Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルのためのマルチモーダル知識のベンチマーク
- Authors: Yifan Jia, Kailin Jiang, Yuyang Liang, Qihan Ren, Yi Xin, Rui Yang, Fenze Feng, Mingcai Chen, Hengyang Lu, Haozhe Wang, Xiaoye Qu, Dongrui Liu, Lizhen Cui, Yuntao Du,
- Abstract要約: 本稿では,コンテキストメモリとコンテキスト間の両方のシナリオにおいて,現実的知識衝突を評価するベンチマークであるMMKC-Benchを提案する。
MMKC-Benchには1,573のナレッジインスタンスと,23種類の広範にわたる3,381のイメージが含まれている。
以上の結果から,現在のLMMは知識の衝突を認識する能力があるが,外的証拠よりも内的パラメトリック知識を好む傾向が示唆された。
- 参考スコア(独自算出の注目度): 23.37800506729006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models(LMMs) face notable challenges when encountering multimodal knowledge conflicts, particularly under retrieval-augmented generation(RAG) frameworks where the contextual information from external sources may contradict the model's internal parametric knowledge, leading to unreliable outputs. However, existing benchmarks fail to reflect such realistic conflict scenarios. Most focus solely on intra-memory conflicts, while context-memory and inter-context conflicts remain largely investigated. Furthermore, commonly used factual knowledge-based evaluations are often overlooked, and existing datasets lack a thorough investigation into conflict detection capabilities. To bridge this gap, we propose MMKC-Bench, a benchmark designed to evaluate factual knowledge conflicts in both context-memory and inter-context scenarios. MMKC-Bench encompasses three types of multimodal knowledge conflicts and includes 1,573 knowledge instances and 3,381 images across 23 broad types, collected through automated pipelines with human verification. We evaluate three representative series of LMMs on both model behavior analysis and conflict detection tasks. Our findings show that while current LMMs are capable of recognizing knowledge conflicts, they tend to favor internal parametric knowledge over external evidence. We hope MMKC-Bench will foster further research in multimodal knowledge conflict and enhance the development of multimodal RAG systems. The source code is available at https://github.com/MLLMKCBENCH/MLLMKC.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、特に検索強化世代(RAG)フレームワークにおいて、多モーダル知識の衝突に遭遇する際に顕著な課題に直面している。
しかし、既存のベンチマークはそのような現実的な競合シナリオを反映しない。
主にメモリ内部のコンフリクトに焦点が当てられているが、コンテキストメモリとコンテキスト間のコンフリクトは依然として大半が調査されている。
さらに、一般的に使用される事実に基づく評価は見過ごされがちであり、既存のデータセットはコンフリクト検出機能に関する徹底的な調査を欠いている。
このギャップを埋めるために、コンテキストメモリとコンテキスト間の両方のシナリオにおける事実的知識の衝突を評価するためのベンチマークであるMMKC-Benchを提案する。
MMKC-Benchは3種類のマルチモーダル知識競合を含み、23種類の広範にわたる1,573のナレッジインスタンスと3,381のイメージを含む。
モデル行動解析とコンフリクト検出の両タスクにおいて,LMMの3つの代表系列を評価する。
以上の結果から,現在のLMMは知識の衝突を認識する能力があるが,外的証拠よりも内的パラメトリック知識を好む傾向が示唆された。
我々は,MMKC-Benchがマルチモーダル知識紛争のさらなる研究を促進し,マルチモーダルRAGシステムの開発を促進することを願っている。
ソースコードはhttps://github.com/MLLMKCBENCH/MLLMKCで公開されている。
関連論文リスト
- Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models [6.52323086990482]
視覚言語モデル(VLM)は、高度なマルチモーダル推論を実証するが、知識の衝突に直面した場合には幻覚を起こす傾向がある。
本研究は,VLMレジリエンスを知識衝突に対して調査するために,目標画像摂動を適用するフレームワークであるsegsubを紹介する。
論文 参考訳(メタデータ) (2025-02-19T00:26:38Z) - The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z) - Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。
MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。
各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:41:17Z) - Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。
これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。
我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T17:59:28Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Resolving Knowledge Conflicts in Large Language Models [46.903549751371415]
大規模言語モデル(LLM)はしばしば知識の衝突に遭遇する。
知識衝突が発生した場合のLLMのデシラタとは何か,既存のLLMがそれを満たすのかを問う。
文脈知識の矛盾をシミュレートする評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。