論文の概要: Vision-Amplified Semantic Entropy for Hallucination Detection in Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2503.20504v1
- Date: Wed, 26 Mar 2025 12:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:20.205739
- Title: Vision-Amplified Semantic Entropy for Hallucination Detection in Medical Visual Question Answering
- Title(参考訳): 医用視覚質問応答における幻覚検出のための視覚増幅セマンティックエントロピー
- Authors: Zehui Liao, Shishuai Hu, Ke Zou, Huazhu Fu, Liangli Zhen, Yong Xia,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、医療用視覚質問応答(VQA)において有意な可能性を証明している。
入力画像と矛盾する幻覚的不適切な反応を呈し、臨床的な意思決定に重大なリスクをもたらす傾向にある。
現在の幻覚検出法,特に意味エントロピー(SE)は,LLMに対して有望な幻覚検出能力を示す。
本稿では、弱い画像変換を取り入れ、視覚入力の影響を増幅する視覚増幅セマンティックエントロピー(VASE)を提案する。
- 参考スコア(独自算出の注目度): 42.116697933322875
- License:
- Abstract: Multimodal large language models (MLLMs) have demonstrated significant potential in medical Visual Question Answering (VQA). Yet, they remain prone to hallucinations-incorrect responses that contradict input images, posing substantial risks in clinical decision-making. Detecting these hallucinations is essential for establishing trust in MLLMs among clinicians and patients, thereby enabling their real-world adoption. Current hallucination detection methods, especially semantic entropy (SE), have demonstrated promising hallucination detection capacity for LLMs. However, adapting SE to medical MLLMs by incorporating visual perturbations presents a dilemma. Weak perturbations preserve image content and ensure clinical validity, but may be overlooked by medical MLLMs, which tend to over rely on language priors. In contrast, strong perturbations can distort essential diagnostic features, compromising clinical interpretation. To address this issue, we propose Vision Amplified Semantic Entropy (VASE), which incorporates weak image transformations and amplifies the impact of visual input, to improve hallucination detection in medical VQA. We first estimate the semantic predictive distribution under weak visual transformations to preserve clinical validity, and then amplify visual influence by contrasting this distribution with that derived from a distorted image. The entropy of the resulting distribution is estimated as VASE. Experiments on two medical open-ended VQA datasets demonstrate that VASE consistently outperforms existing hallucination detection methods.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) は, 医療用視覚質問応答 (VQA) において有意な可能性を示唆している。
しかし、彼らは入力画像と矛盾する幻覚的不適切な反応をしがちであり、臨床的な意思決定に重大なリスクをもたらす。
これらの幻覚を検出することは、臨床医や患者の間でMLLMの信頼を確立するために不可欠である。
現在の幻覚検出法,特に意味エントロピー(SE)は,LLMに対して有望な幻覚検出能力を示す。
しかし、視覚的摂動を取り入れた医療MLLMにSEを適用するとジレンマが生じる。
弱めの摂動は画像の内容を保存し、臨床的有効性を保証するが、医学的MLLMによって見落とされがちである。
対照的に、強い摂動は重要な診断特徴を歪め、臨床解釈を損なう可能性がある。
この問題を解決するために、医用VQAにおける幻覚検出を改善するために、弱い画像変換を取り入れ、視覚入力の影響を増幅する視覚増幅セマンティックエントロピー(VASE)を提案する。
まず, 臨床的妥当性を維持するために, 弱い視覚変換下での意味的予測分布を推定し, この分布を歪んだ画像から導出したものと対比することにより, 視覚的影響を増幅する。
得られた分布のエントロピーは、VASEとして推定される。
2つの医療用オープンエンドVQAデータセットの実験は、VASEが既存の幻覚検出方法より一貫して優れていることを示した。
関連論文リスト
- Mitigating Hallucinations in Large Vision-Language Models with Internal Fact-based Contrastive Decoding [5.424048651554831]
内部Fact-based Contrastive Decoding (IFCD)は、大規模視覚言語モデル(LVLM)の推論過程における幻覚の緩和と抑制を目的としている。
IFCDはLVLMの出力を校正し、最終予測から幻覚ロジットを効果的に除去する。
実験の結果, IFCD はPOPE では平均9% の精度向上, MME では8% の精度向上を実現し, オブジェクトレベルの幻覚と属性レベルの幻覚の両方を著しく軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-03T05:08:35Z) - Poison as Cure: Visual Noise for Mitigating Object Hallucinations in LVMs [7.920981206857122]
大型視覚言語モデル(LVM)は、大型言語モデル(LLM)を視覚的知覚能力で拡張する。
信頼性を損なう大きな課題は、LVMが妥当だが事実的に不正確な情報を生成できるというオブジェクト幻覚である。
本稿では,この幻覚を緩和するための新しい視覚的対向摂動(VAP)法を提案する。
論文 参考訳(メタデータ) (2025-01-31T14:31:00Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z) - Reducing Hallucinations in Vision-Language Models via Latent Space Steering [34.1755878632361]
幻覚は、アプリケーションに大規模な視覚言語モデル(LVLM)を配置する上での課題である。
本稿では,視覚的特徴の安定性を高めるために,視覚とテクスチュアル・インターベンション(VTI, Visual and Textual Intervention)を提案する。
論文 参考訳(メタデータ) (2024-10-21T08:42:30Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。