論文の概要: V-Loop: Visual Logical Loop Verification for Hallucination Detection in Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2601.18240v1
- Date: Mon, 26 Jan 2026 07:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.725655
- Title: V-Loop: Visual Logical Loop Verification for Hallucination Detection in Medical Visual Question Answering
- Title(参考訳): V-Loop:医学的視覚質問応答における幻覚検出のための視覚論理ループ検証
- Authors: Mengyuan Jin, Zehui Liao, Yong Xia,
- Abstract要約: 医用視覚質問応答における幻覚検出のためのトレーニングフリーでプラグアンドプレイのフレームワークを提案する。
V-ループは、事実の正しさを検証するために視覚的に接地された論理ループを形成する。
既存のイントロスペクティブ手法を一貫して上回り、高い効率を保ち、組み合わせた場合の不確実性ベースのアプローチをさらに強化する。
- 参考スコア(独自算出の注目度): 8.994256499686863
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown remarkable capability in assisting disease diagnosis in medical visual question answering (VQA). However, their outputs remain vulnerable to hallucinations (i.e., responses that contradict visual facts), posing significant risks in high-stakes medical scenarios. Recent introspective detection methods, particularly uncertainty-based approaches, offer computational efficiency but are fundamentally indirect, as they estimate predictive uncertainty for an image-question pair rather than verifying the factual correctness of a specific answer. To address this limitation, we propose Visual Logical Loop Verification (V-Loop), a training-free and plug-and-play framework for hallucination detection in medical VQA. V-Loop introduces a bidirectional reasoning process that forms a visually grounded logical loop to verify factual correctness. Given an input, the MLLM produces an answer for the primary input pair. V-Loop extracts semantic units from the primary QA pair, generates a verification question by conditioning on the answer unit to re-query the question unit, and enforces visual attention consistency to ensure answering both primary question and verification question rely on the same image evidence. If the verification answer matches the expected semantic content, the logical loop closes, indicating factual grounding; otherwise, the primary answer is flagged as hallucinated. Extensive experiments on multiple medical VQA benchmarks and MLLMs show that V-Loop consistently outperforms existing introspective methods, remains highly efficient, and further boosts uncertainty-based approaches when used in combination.
- Abstract(参考訳): MLLM (Multimodal Large Language Models) は, 医用視覚質問応答 (VQA) において, 疾患診断を補助する顕著な能力を示した。
しかし、そのアウトプットは幻覚(視覚的事実と矛盾する反応)に弱いままであり、高リスクの医療シナリオにおいて重大なリスクを生じさせる。
最近のイントロスペクティブ検出手法、特に不確実性に基づくアプローチは、計算効率を提供するが、特定の解の事実的正しさを検証するのではなく、画像探索ペアに対する予測的不確実性を推定するため、基本的に間接的である。
この制限に対処するために、医療用VQAにおける幻覚検出のためのトレーニングフリーでプラグアンドプレイのフレームワークであるVisual Logical Loop Verification (V-Loop)を提案する。
V-Loopは、事実の正しさを検証するために、視覚的に接地された論理ループを形成する双方向の推論プロセスを導入している。
入力が与えられた後、MLLMは一次入力対に対する回答を生成する。
V−Loopは、プライマリQAペアからセマンティックユニットを抽出し、回答ユニットに条件付けして検証質問を生成して、質問ユニットを再クエリし、視覚的注意一貫性を適用して、プライマリ質問と検証質問の両方に同じ画像証拠に依存するようにする。
検証回答が期待されるセマンティック内容と一致した場合、論理ループは閉じ、事実的根拠を示す。
複数の医療用VQAベンチマークとMLLMの大規模な実験により、V-Loopは既存の検査方法より一貫して優れており、高い効率が保たれており、組み合わせた場合の不確実性に基づくアプローチをさらに促進している。
関連論文リスト
- Saliency Guided Longitudinal Medical Visual Question Answering [9.991158264639209]
縦断的視覚的質問応答(Diff-VQA)は、異なる時間点からペアによる研究を比較する必要がある。
本稿では, 胸部X線Diff-VQAのためのサリエンシ誘導型エンコーダデコーダを提案する。
論文 参考訳(メタデータ) (2025-09-29T18:26:17Z) - Knowing or Guessing? Robust Medical Visual Question Answering via Joint Consistency and Contrastive Learning [34.6490677122246]
医用視覚質問応答における不安定性について,現在の医用視覚言語モデル (Med-VLMs) を用いて検討した。
本稿では,知識適応型一貫性学習とバイアス認識型コントラスト学習を統合した一貫性・コントラスト学習(CCL)を提案する。
CCLは3つの人気のあるVQAベンチマークでSOTAのパフォーマンスを達成し、特にRoMedテストセットで解の一貫性を50%向上させる。
論文 参考訳(メタデータ) (2025-08-26T05:21:19Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - Vision-Amplified Semantic Entropy for Hallucination Detection in Medical Visual Question Answering [42.116697933322875]
マルチモーダル大言語モデル(MLLM)は、医療用視覚質問応答(VQA)において有意な可能性を証明している。
入力画像と矛盾する幻覚的不適切な反応を呈し、臨床的な意思決定に重大なリスクをもたらす傾向にある。
現在の幻覚検出法,特に意味エントロピー(SE)は,LLMに対して有望な幻覚検出能力を示す。
本稿では、弱い画像変換を取り入れ、視覚入力の影響を増幅する視覚増幅セマンティックエントロピー(VASE)を提案する。
論文 参考訳(メタデータ) (2025-03-26T12:45:34Z) - VL-Uncertainty: Detecting Hallucination in Large Vision-Language Model via Uncertainty Estimation [18.873512856021357]
本稿では,大規模な視覚言語モデルにおける幻覚を検出するための,最初の不確実性に基づくフレームワークであるVL-Uncertaintyを紹介する。
意味論的に等価だが摂動的プロンプト間の予測分散を分析して不確実性を測定する。
LVLMは信頼性が高く、意味論的に等価なクエリに対して一貫した応答を提供する。
しかし、不確実な場合には、目標LVLMの応答はよりランダムになる。
論文 参考訳(メタデータ) (2024-11-18T04:06:04Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking [55.2155025063668]
KnowHaluは、大規模言語モデル(LLM)によって生成されたテキスト中の幻覚を検出する新しいアプローチである
ステップワイズ推論、マルチフォームクエリ、ファクトチェックのためのマルチフォーム知識、フュージョンベースの検出メカニズムを使用する。
評価の結果,KnowHaluは様々なタスクにおける幻覚検出においてSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-04-03T02:52:07Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。