論文の概要: DO-Bench: An Attributable Benchmark for Diagnosing Object Hallucination in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.22822v1
- Date: Sat, 18 Apr 2026 06:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.959555
- Title: DO-Bench: An Attributable Benchmark for Diagnosing Object Hallucination in Vision-Language Models
- Title(参考訳): DO-Bench:視覚言語モデルにおける物体の幻覚診断のための属性ベンチマーク
- Authors: JiYang Wang, Jiawei Chen, Mengqi Xiao, Yu Cheng, Yangfu Li, Zhaoxia Yin,
- Abstract要約: オブジェクトレベルの幻覚は、視覚言語モデルにとって依然として中心的な信頼性の課題である。
構造的介入によりソースを分離する制御診断ベンチマークであるDO-Benchを紹介する。
対象幻覚は,集合的精度を超える不均一な機構に依存した障害パターンを反映していることを示す。
- 参考スコア(独自算出の注目度): 17.5535076530203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object level hallucination remains a central reliability challenge for vision language models (VLMs), particularly in binary object existence verification. Existing benchmarks emphasize aggregate accuracy but rarely disentangle whether errors stem from perceptual limitations or from the influence of contextual textual priors, leaving underlying failure mechanisms ambiguous. We introduce DO-Bench, a controlled diagnostic benchmark that isolates these sources through structured multimodal interventions. Rather than evaluating models in unconstrained settings, DO-Bench probes two complementary dimensions: the Prior Override dimension progressively strengthens contextual textual priors while holding visual evidence constant to assess resistance to prior pressure, and the Perception-Limited dimension incrementally enhances visual evidence from full-scene context to localized object crops to measure perceptual grounding strength. This paired design enables attribution of errors to prior suppression, perceptual insufficiency, or their interaction. We further define two diagnostic metrics, PriorRobust and PerceptionAbility, to quantify these behaviors consistently. Evaluations across diverse open- and closed-source VLMs reveal systematic differences in prior sensitivity and perceptual reliability, demonstrating that object hallucination reflects heterogeneous, mechanism dependent failure patterns beyond aggregate accuracy.
- Abstract(参考訳): オブジェクトレベルの幻覚は、視覚言語モデル(VLM)、特にバイナリオブジェクトの存在検証において、依然として中心的な信頼性の課題である。
既存のベンチマークでは、集約精度が重視されているが、エラーが知覚的制限によるものか、文脈的テキストによる事前の影響によるものなのか、その基盤となる障害メカニズムが曖昧であることは滅多にない。
我々は、構造化マルチモーダル介入によりこれらのソースを分離する、制御された診断ベンチマークであるDO-Benchを紹介する。
DO-Benchは、制約のない環境でモデルを評価するのではなく、2つの相補的な次元を探索する: 先行オーバーライド次元は、事前圧力に対する抵抗を評価するために常に視覚的エビデンスを保ちながら、段階的に文脈的テクスチュア先行を補強し、知覚制限次元は、フルシーンのコンテキストから局所化されたオブジェクト作物への視覚的エビデンスを徐々に強化し、知覚的グラウンド強度を測定する。
このペア設計は、事前の抑圧、知覚障害、またはそれらの相互作用へのエラーの帰結を可能にする。
PriorRobustとPerceptionAbilityという2つの診断指標を定義し、これらの振る舞いを一貫して定量化する。
様々なオープンソースおよびクローズドソースのVLMに対する評価は、事前感度と知覚信頼性の体系的な違いを示し、オブジェクト幻覚は集約精度を超える異質なメカニズム依存の障害パターンを反映していることを示した。
関連論文リスト
- Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models [65.57985131861399]
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
論文 参考訳(メタデータ) (2026-04-11T13:59:05Z) - VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning [5.887179947363831]
大規模視覚言語モデル(LVLM)は、強いマルチモーダル推論を実現するが、幻覚や誤った反応を高い確信でしばしば示す。
既存の言語化された信頼度校正法は、主にテキストのみのLLM向けに開発され、通常、バイナリ応答レベルの正しさを使用して単一の総合的な信頼度スコアを最適化する。
本稿では,信頼を視覚的・理性的な信頼に明確に分離する強化学習フレームワークであるVL-Calibrationを提案する。
論文 参考訳(メタデータ) (2026-04-10T17:47:19Z) - Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。
損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。
視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。
言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文 参考訳(メタデータ) (2026-03-20T02:07:10Z) - Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models [62.932580559941414]
VLM(Vision-Language Models)は、しばしば「ハロシン化(hallucinate)」する。
本稿では,静的な出力誤差からモデル計算認知の動的病理へ再キャストし,幻覚を診断するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:20:38Z) - Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering [33.3588824921581]
メタ認知的自己補正プロセスをシミュレートするトレーニングフリー推論フレームワークであるVision-Language Introspection (VLI)を導入する。
VLIは高度なモデルで最先端のパフォーマンスを実現し、MMHal-Benchではオブジェクト幻覚率を12.67%削減し、POPEでは精度を5.8%向上した。
論文 参考訳(メタデータ) (2026-01-08T17:49:13Z) - RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。
我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。
本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文 参考訳(メタデータ) (2025-09-26T13:53:25Z) - Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models [24.363156120809546]
劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。
このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。
Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
論文 参考訳(メタデータ) (2025-06-25T06:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。