論文の概要: Seeing is Believing: Rich-Context Hallucination Detection for MLLMs via Backward Visual Grounding
- arxiv url: http://arxiv.org/abs/2511.12140v1
- Date: Sat, 15 Nov 2025 10:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.635547
- Title: Seeing is Believing: Rich-Context Hallucination Detection for MLLMs via Backward Visual Grounding
- Title(参考訳): Looking is Believing:Lich-Context Hallucination Detection for MLLMs via Backward Visual Grounding (特集:ヒューマンコミュニケーション)
- Authors: Pinxue Guo, Chongruo Wu, Xinyu Zhou, Lingyi Hong, Zhaoyu Chen, Jinglun Li, Kaixun Jiang, Sen-ching Samson Cheung, Wei Zhang, Wenqiang Zhang,
- Abstract要約: VBackCheckerは参照なし幻覚検出フレームワークである。
これは、推論と参照セグメンテーション機能を備えたピクセルレベルのグラウンディングLLMを活用することで機能する。
また,MLLMの新しい幻覚ベンチマークR2-HalBenchを作成した。
- 参考スコア(独自算出の注目度): 44.65557733731948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have unlocked powerful cross-modal capabilities, but still significantly suffer from hallucinations. As such, accurate detection of hallucinations in MLLMs is imperative for ensuring their reliability in practical applications. To this end, guided by the principle of "Seeing is Believing", we introduce VBackChecker, a novel reference-free hallucination detection framework that verifies the consistency of MLLMgenerated responses with visual inputs, by leveraging a pixellevel Grounding LLM equipped with reasoning and referring segmentation capabilities. This reference-free framework not only effectively handles rich-context scenarios, but also offers interpretability. To facilitate this, an innovative pipeline is accordingly designed for generating instruction-tuning data (R-Instruct), featuring rich-context descriptions, grounding masks, and hard negative samples. We further establish R^2 -HalBench, a new hallucination benchmark for MLLMs, which, unlike previous benchmarks, encompasses real-world, rich-context descriptions from 18 MLLMs with high-quality annotations, spanning diverse object-, attribute, and relationship-level details. VBackChecker outperforms prior complex frameworks and achieves state-of-the-art performance on R^2 -HalBench, even rivaling GPT-4o's capabilities in hallucination detection. It also surpasses prior methods in the pixel-level grounding task, achieving over a 10% improvement. All codes, data, and models are available at https://github.com/PinxueGuo/VBackChecker.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は強力なクロスモーダル機能を解放しているが、幻覚に悩まされている。
そのため、MLLMにおける幻覚の正確な検出は、実用上の信頼性を確保するために不可欠である。
この目的のために、我々は「Seeing is Believing」の原則で導かれたVBackCheckerを紹介します。これは、推論と参照セグメンテーション機能を備えた画素レベルグラウンドディングLLMを活用することで、MLLM生成応答と視覚入力との整合性を検証する新しい参照フリー幻覚検出フレームワークです。
この参照フリーフレームワークは、リッチコンテキストシナリオを効果的に扱うだけでなく、解釈可能性も提供する。
これを容易にするため、インストラクションチューニングデータ(R-インストラクション)を生成するために革新的なパイプラインが設計され、リッチコンテキスト記述、グラウンドマスク、ハードネガティブサンプルが特徴である。
R^2-HalBenchはMLLMの新しい幻覚ベンチマークであり、従来のベンチマークとは違って、高品質なアノテーションを持つ18のMLLMの実世界のリッチコンテキスト記述を包含し、多様なオブジェクト、属性、関係レベルの詳細を網羅する。
VBackCheckerは以前の複雑なフレームワークより優れており、幻覚検出におけるGPT-4oの能力に匹敵するR^2-HalBenchで最先端のパフォーマンスを実現している。
また、ピクセルレベルのグラウンディングタスクでは従来の方法を超え、10%以上の改善が達成されている。
すべてのコード、データ、モデルはhttps://github.com/PinxueGuo/VBackChecker.comで入手できる。
関連論文リスト
- Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。
多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。
本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文 参考訳(メタデータ) (2025-08-27T18:02:04Z) - CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base [29.477973983931083]
LVLM出力の幻覚を検出する軽量でトレーニング不要なフレームワークであるCutPaste&Findを提案する。
私たちのフレームワークの中核は、リッチなエンティティ属性関係と関連するイメージ表現をエンコードするビジュアルエイドの知識ベースです。
類似度スコアを改良するスケーリング係数を導入し, 地中画像とテキストのペアであっても, 最適下アライメントの問題を緩和する。
論文 参考訳(メタデータ) (2025-02-18T07:06:36Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
実験により,MLLMは最終出力のオブジェクトを誤って生成するが,前層の視覚的オブジェクトを認識できることがわかった。
そこで本研究では,MLLMs DeCoの動的補正復号法を提案する。この手法は,適切な先行層を適応的に選択し,最終層に知識を比例的に統合し,出力ロジットを調整する。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。