論文の概要: VIHD: Visual Intervention-based Hallucination Detection for Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2605.20772v1
- Date: Wed, 20 May 2026 06:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.518729
- Title: VIHD: Visual Intervention-based Hallucination Detection for Medical Visual Question Answering
- Title(参考訳): VIHD:医療用視覚質問応答のための視覚的介入に基づく幻覚検出
- Authors: Jiayi Chen, Benteng Ma, Zehui Liao, Winston Chong, Yasmeen George, Jianfei Cai,
- Abstract要約: 幻覚は臨床的な意思決定にリスクをもたらし、効果的な検出を必要とする。
既存のイントロスペクティブ検出法は、主に不確実性推定や論理的検証を行う。
視覚的介入に基づく幻覚検出法であるVIHDを提案する。
- 参考スコア(独自算出の注目度): 27.827862126990553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While medical Multimodal Large Language Models (MLLMs) have shown promise in assisting diagnosis, they still frequently generate hallucinated responses that appear linguistically plausible but lack visual evidence. Such hallucinations pose risks to clinical decision-making and necessitate effective detection. Existing introspective detection methods primarily perform uncertainty estimation or logical verification by analyzing model responses conditioned on original or perturbed inputs. However, such external perturbations are often heuristic and context-agnostic, which overlooks the internal cross-modal dependency between generated tokens and related visual tokens during decoding. To address this issue, we propose VIHD, a Visual Intervention-based Hallucination Detection method that leverages targeted visual token masking to calibrate semantic entropy for more effective hallucination detection. VIHD locates visually dominant decoder layers via Visual Dependency Probing (VDP), executes Visual Intervention Decoding (VID) via token masking to calibrate the semantic distribution, and quantifies the resulting Calibrated Semantic Entropy (CSE) as a reliable hallucination signal. Extensive experiments on three medical VQA benchmarks with two medical MLLMs demonstrate that VIHD consistently outperforms state-of-the-art methods, underscoring the importance of fine-grained visual dependency for hallucination detection. The code will be available at https://github.com/Jiayi-Chen-AU/VIHD
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は診断支援の公約を示すが、言語学的に妥当に見えるが視覚的証拠が欠如している幻覚反応をしばしば生み出す。
このような幻覚は臨床的な意思決定にリスクをもたらし、効果的な検出を必要とする。
既存のイントロスペクティブ検出法は主に、原文または摂動入力に条件付けられたモデル応答を解析することにより、不確実性推定または論理的検証を行う。
しかし、このような外部摂動はしばしばヒューリスティックで文脈に依存しないものであり、デコード中に生成されたトークンと関連する視覚トークンの間の内部の相互依存を見落としている。
この問題に対処するため,視覚的介入に基づく幻覚検出手法であるVIHDを提案し,視覚的トークンマスキングを利用して,より効果的な幻覚検出のための意味エントロピーの校正を行う。
VIHDは視覚的に支配的なデコーダ層をVisual Dependency Probing (VDP) を介して見つけ出し、トークンマスキングを介してビジュアルインターベンションデコード(VID)を実行し、セマンティック分布をキャリブレートしたセマンティックエントロピー(CSE)を信頼できる幻覚信号として定量化する。
3つの医療用VQAベンチマークと2つの医療用MLLMによる広範囲な実験により、VIHDは常に最先端の手法よりも優れており、幻覚検出におけるきめ細かい視覚的依存の重要性が強調されている。
コードはhttps://github.com/Jiayi-Chen-AU/VIHDで入手できる。
関連論文リスト
- VCE: A zero-cost hallucination mitigation method of LVLMs via visual contrastive editing [70.82867621856968]
大きな視覚言語モデル(LVLM)は、しばしば物体幻覚(OH)に悩まされる
近年の研究では、幻覚の問題は言語の先行に起因している可能性が示唆されている。
本稿では視覚コントラスト編集(VCE)を提案する。
論文 参考訳(メタデータ) (2026-04-21T12:40:07Z) - V-Loop: Visual Logical Loop Verification for Hallucination Detection in Medical Visual Question Answering [8.994256499686863]
医用視覚質問応答における幻覚検出のためのトレーニングフリーでプラグアンドプレイのフレームワークを提案する。
V-ループは、事実の正しさを検証するために視覚的に接地された論理ループを形成する。
既存のイントロスペクティブ手法を一貫して上回り、高い効率を保ち、組み合わせた場合の不確実性ベースのアプローチをさらに強化する。
論文 参考訳(メタデータ) (2026-01-26T07:46:41Z) - FaithSCAN: Model-Driven Single-Pass Hallucination Detection for Faithful Visual Question Answering [14.550872089352943]
FaithSCANは視覚言語モデルの豊富な内部信号を利用して幻覚を検出する軽量ネットワークである。
本稿では,LLM-as-a-JudgeパラダイムをVQA幻覚に拡張し,モデル依存型監視信号の自動生成のための低コスト戦略を提案する。
深い分析により、幻覚は視覚知覚、相互モーダル推論、言語復号における系統的な内部状態の変化から生じることが示された。
論文 参考訳(メタデータ) (2026-01-01T09:19:39Z) - V-ITI: Mitigating Hallucinations in Multimodal Large Language Models via Visual Inference-Time Intervention [39.81171248046778]
MLLM(Multimodal Large Language Models)は、幻覚に苦しむ多くの視覚言語タスクに優れる。
本稿では,Visual Neglect Detectorを統合した軽量な視覚推論時間介入フレームワークであるV-ITIを提案する。
V-ITIは、一般的なタスク性能を維持しながら、視覚関連幻覚を一貫して緩和する。
論文 参考訳(メタデータ) (2025-12-03T08:03:54Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Vision-Amplified Semantic Entropy for Hallucination Detection in Medical Visual Question Answering [42.116697933322875]
マルチモーダル大言語モデル(MLLM)は、医療用視覚質問応答(VQA)において有意な可能性を証明している。
入力画像と矛盾する幻覚的不適切な反応を呈し、臨床的な意思決定に重大なリスクをもたらす傾向にある。
現在の幻覚検出法,特に意味エントロピー(SE)は,LLMに対して有望な幻覚検出能力を示す。
本稿では、弱い画像変換を取り入れ、視覚入力の影響を増幅する視覚増幅セマンティックエントロピー(VASE)を提案する。
論文 参考訳(メタデータ) (2025-03-26T12:45:34Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z) - Reducing Hallucinations in Vision-Language Models via Latent Space Steering [34.1755878632361]
幻覚は、アプリケーションに大規模な視覚言語モデル(LVLM)を配置する上での課題である。
本稿では,視覚的特徴の安定性を高めるために,視覚とテクスチュアル・インターベンション(VTI, Visual and Textual Intervention)を提案する。
論文 参考訳(メタデータ) (2024-10-21T08:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。