論文の概要: CDH-Bench: A Commonsense-Driven Hallucination Benchmark for Evaluating Visual Fidelity in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.27982v1
- Date: Mon, 30 Mar 2026 03:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.206563
- Title: CDH-Bench: A Commonsense-Driven Hallucination Benchmark for Evaluating Visual Fidelity in Vision-Language Models
- Title(参考訳): CDH-Bench:視覚言語モデルにおける視覚忠実度評価のための常識駆動型幻覚ベンチマーク
- Authors: Kesheng Chen, Yamin Hu, Qi Zhou, Zhenqian Zhu, Wenjian Luo,
- Abstract要約: ビジョン言語モデル(VLM)は多くのベンチマークで高いパフォーマンスを達成するが、モデルが示すものやコモンセンスが示すものに従うだろうか?
我々はこの現象をtextbfcommonsense-driven Hallucination (CDH) と呼ぶ。
textbfCDH-Bench(英語版)は、明示的なtextbfvisual evidence--commonsense conflicts(英語版)を作成するために設計されたベンチマークである。
結果は、強力なモデルでさえも、視覚的エビデンスの下での事前駆動の正規化に弱いままであることを示している。
- 参考スコア(独自算出の注目度): 6.468092468694114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) achieve strong performance on many benchmarks, yet a basic reliability question remains underexplored: when visual evidence conflicts with commonsense, do models follow what is shown or what commonsense suggests? A characteristic failure in this setting is that the model overrides visual evidence and outputs the commonsense alternative. We term this phenomenon \textbf{commonsense-driven hallucination} (CDH). To evaluate it, we introduce \textbf{CDH-Bench}, a benchmark designed to create explicit \textbf{visual evidence--commonsense conflicts}. CDH-Bench covers three dimensions: \textit{counting anomalies}, \textit{relational anomalies}, and \textit{attribute anomalies}. We evaluate frontier VLMs under \textit{binary Question Answering (QA)} and \textit{multiple-choice QA}, and report metrics including \textit{Counterfactual Accuracy} (CF-Acc), \textit{Commonsense Accuracy} (CS-Acc), \textit{Counterfactual Accuracy Drop} (CFAD), \textit{Commonsense Collapse Rate} (CCR), and \textit{Relative Prior Dependency} (RPD). Results show that even strong models remain vulnerable to prior-driven normalization under visual evidence--commonsense conflict. CDH-Bench provides a controlled diagnostic of visual fidelity under visual evidence--commonsense conflict.
- Abstract(参考訳): 視覚的エビデンスとコモンセンスが矛盾する場合、モデルは何を示すのか、あるいはコモンセンスが何を示すのか?
この設定で特徴的な失敗は、モデルが視覚的証拠をオーバーライドし、コモンセンスの代替品を出力することである。
本現象をCDH(textbf{commonsense-driven hallucination)と呼ぶ。
これを評価するために、明示的な \textbf{CDH-Bench} を生成するために設計されたベンチマークである \textbf{CDH-Bench} を導入する。
CDH-Benchは3次元をカバーする: \textit{counting anomalies}, \textit{relational anomalies}, \textit{attribute anomalies}。
そこで,本研究では,<textit{binary Question Answering (QA) と \textit{multiple-choice QA} を用いてフロンティアVLMを評価し,<textit{Counterfactual Accuracy} (CF-Acc), \textit{Commonsense Accuracy} (CS-Acc), \textit{Counterfactual Accuracy Drop} (CFAD), \textit{Commonsense Collapse Rate} (CCR), \textit{Relative Prior Dependency} (RPD) などの指標を報告する。
結果は、強力なモデルでさえも、視覚的エビデンスの下での事前駆動の正規化に弱いままであることを示している。
CDH-Benchは、視覚的エビデンス-コモンセンスコンフリクトの下で、視覚的忠実性の制御された診断を提供する。
関連論文リスト
- HighlightBench: Benchmarking Markup-Driven Table Reasoning in Scientific Documents [88.16322879912458]
マルチモーダルな大言語モデル (MLLM) は文書理解においてかなりの進歩を遂げているが、明示的な論理ディレクティブとしてそのような方法を扱う能力はいまだ探索されていない。
マークアップ駆動型テーブル理解のための診断ベンチマークであるHighlightBenchを導入し,評価を5つのタスクファミリに分解する。
構成された出力制約の下では、視覚的手がかりがシンボリック推論と一貫して一致しなければならない場合、強いモデルでさえ不安定であることを示す。
論文 参考訳(メタデータ) (2026-03-25T06:15:40Z) - INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs [69.11382230669491]
ビデオ証拠(忠実さ)または検証可能な世界知識(事実性)のどちらかに矛盾する結果である幻覚
textscINFACTは、4つのモードでモデルを評価する。
14の代表的なビデオ-LLMの実験では、高ベースモード精度が誘導モードの信頼性に確実に変換されないことが明らかになった。
論文 参考訳(メタデータ) (2026-03-12T03:03:16Z) - Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy [75.66913260900726]
検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。
既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。
我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
論文 参考訳(メタデータ) (2026-01-11T08:25:34Z) - Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。
胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:28:22Z) - Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models [24.363156120809546]
劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。
このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。
Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
論文 参考訳(メタデータ) (2025-06-25T06:44:07Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。