Fugu-MT 論文翻訳(概要): Benchmarking Deflection and Hallucination in Large Vision-Language Models

論文の概要: Benchmarking Deflection and Hallucination in Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2604.12033v1
Date: Mon, 13 Apr 2026 20:22:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.110109
Title: Benchmarking Deflection and Hallucination in Large Vision-Language Models
Title（参考訳）: 大規模視覚言語モデルにおけるベンチマークのデフレクションと幻覚
Authors: Nicholas Moratelli, Christopher Davis, Leonardo F. R. Ribeiro, Bill Byrne, Gonzalo Iglesias,
Abstract要約: 既存のベンチマークでは、視覚的証拠とテキスト的証拠の衝突を見落としている。多様なマルチモーダル検索設定にまたがる2,775個のサンプルのベンチマークであるVLM-DeflectionBenchを紹介する。私たちの結果は、モデルが知っていることだけでなく、そうでないときにどのように振る舞うかを評価する必要性を強調します。
参考スコア（独自算出の注目度）: 25.176271096443482
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Vision-Language Models (LVLMs) increasingly rely on retrieval to answer knowledge-intensive multimodal questions. Existing benchmarks overlook conflicts between visual and textual evidence and the importance of generating deflections (e.g., Sorry, I cannot answer...) when retrieved knowledge is incomplete. These benchmarks also suffer from rapid obsolescence, as growing LVLM training sets allow models to answer many questions without retrieval. We address these gaps with three contributions. First, we propose a dynamic data curation pipeline that preserves benchmark difficulty over time by filtering for genuinely retrieval-dependent samples. Second, we introduce VLM-DeflectionBench, a benchmark of 2,775 samples spanning diverse multimodal retrieval settings, designed to probe model behaviour under conflicting or insufficient evidence. Third, we define a fine-grained evaluation protocol with four scenarios that disentangle parametric memorization from retrieval robustness. Experiments across 20 state-of-the-art LVLMs indicate that models usually fail to deflect in the presence of noisy or misleading evidence. Our results highlight the need to evaluate not only what models know, but how they behave when they do not, and serve as a reusable and extensible benchmark for reliable KB-VQA evaluation. All resources will be publicly available upon publication.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は、知識集約型マルチモーダル質問に対する検索にますます依存している。既存のベンチマークは、検索された知識が不完全である場合、視覚的証拠とテキスト的証拠の衝突と、偏向を生成することの重要性(例えば、Sorry, I cannot answer...)を見落としている。これらのベンチマークはまた、LVLMトレーニングセットの増加により、モデルが検索なしで多くの質問に答えることができるため、急激な陳腐化に悩まされている。これらのギャップに3つのコントリビューションで対処します。まず、真の検索依存サンプルをフィルタすることで、ベンチマークの困難さを時間とともに保存する動的データキュレーションパイプラインを提案する。第2に,多様なマルチモーダル検索設定にまたがる2,775個のサンプルのベンチマークであるVLM-DeflectionBenchを導入する。第3に,検索頑健性からパラメトリック記憶を乱す4つのシナリオによるきめ細かい評価プロトコルを定義する。 20の最先端のLVLMの実験では、モデルは通常、ノイズや誤解を招く証拠の存在下では無視できないことが示されている。本結果は,モデルが知っていることだけでなく,その動作の仕方も評価し,信頼性のあるKB-VQA評価のための再利用可能なベンチマークとして機能することを示す。すべてのリソースは出版時に公開されます。

関連論文リスト

Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models [27.14308995992974]
事前訓練されたMLLMがマルチモーダルなエビデンスをどのように利用するかを改善するトレーニング不要な推論時間フレームワークであるLook Twice(LoT)を紹介する。 LoTは、どの視覚領域と検索されたテキスト要素がクエリに関連するかを推定し、このハイライトされたエビデンスに条件付けられた回答を生成する。複数の知識に基づくVQAベンチマークによる実験では、ゼロショットMLLMよりも一貫した改善が見られた。
論文参考訳（メタデータ） (2026-04-01T18:00:08Z)
MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文参考訳（メタデータ） (2025-09-30T15:09:14Z)
Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-27T10:37:11Z)
Measuring Epistemic Humility in Multimodal Large Language Models [17.490955813494693]
HumbleBench は,MLLM が正解ではないが誤解を拒否する能力を評価するために設計された,新しい幻覚ベンチマークである。我々は、微粒なシーングラフアノテーションを利用して、地中構造体と関係を抽出し、GPT-4-Turboに多重選択質問を生成する。 HumbleBenchは、現在の評価スイートにおける重要なギャップを埋め、安全クリティカルな設定におけるMLLMの信頼性をより現実的に測定する。
論文参考訳（メタデータ） (2025-09-11T17:54:00Z)
KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文参考訳（メタデータ） (2025-08-12T19:43:44Z)
Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
Unveiling the Tapestry of Consistency in Large Vision-Language Models [25.106467574467448]
提案手法は,プロンプトの解空間が知識点を中心に回転するときに,LVLMがどう機能するかを直感的に解析するベンチマークである。 ConBenchツールに基づいて、タペストリーを最初に公開し、以下の結果を得た。我々は,本論文が研究コミュニティのモデル評価を加速し,一貫性領域の今後の進歩を促進することを願っている。
論文参考訳（メタデータ） (2024-05-23T04:08:23Z)
Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文参考訳（メタデータ） (2024-05-18T02:21:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。