論文の概要: Med-VCD: Mitigating Hallucination for Medical Large Vision Language Models through Visual Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2512.01922v1
- Date: Mon, 01 Dec 2025 17:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.996114
- Title: Med-VCD: Mitigating Hallucination for Medical Large Vision Language Models through Visual Contrastive Decoding
- Title(参考訳): Med-VCD:ビジュアルコントラストデコーディングによる医療用大規模視覚言語モデルの幻覚の軽減
- Authors: Zahra Mahdavi, Zahra Khodakaramimaghsoud, Hooman Khaloo, Sina Bakhshandeh Taleshani, Erfan Hashemi, Javad Mirzapour Kaleybar, Omid Nejati Manzari,
- Abstract要約: 医用LVLMにおける幻覚を、二次復号の時間的オーバーヘッドを伴わずに緩和する、疎視的復号法であるMed-VCDを導入する。
以上の結果から,Med-VCDは平均13%,幻覚精度は6%向上した。
- 参考スコア(独自算出の注目度): 0.8431877864777443
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large vision-language models (LVLMs) are now central to healthcare applications such as medical visual question answering and imaging report generation. Yet, these models remain vulnerable to hallucination outputs that appear plausible but are in fact incorrect. In the natural image domain, several decoding strategies have been proposed to mitigate hallucinations by reinforcing visual evidence, but most rely on secondary decoding or rollback procedures that substantially slow inference. Moreover, existing solutions are often domain-specific and may introduce misalignment between modalities or between generated and ground-truth content. We introduce Med-VCD, a sparse visual-contrastive decoding method that mitigates hallucinations in medical LVLMs without the time overhead of secondary decoding. Med-VCD incorporates a novel token-sparsification strategy that selects visually informed tokens on the fly, trimming redundancy while retaining critical visual context and thus balancing efficiency with reliability. Evaluations on eight medical datasets, spanning ophthalmology, radiology, and pathology tasks in visual question answering, report generation, and dedicated hallucination benchmarks, show that Med-VCD raises factual accuracy by an average of 13\% and improves hallucination accuracy by 6\% relative to baseline medical LVLMs.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、医学的視覚的質問応答や画像レポート生成などの医療応用の中心となっている。
しかし、これらのモデルは、もっともらしいが実際には正しくない幻覚出力に弱いままである。
自然画像領域では、視覚的証拠を補強することで幻覚を軽減するためにいくつかの復号法が提案されているが、ほとんどの場合、推論を著しく遅くする二次復号法やロールバック法に依存している。
さらに、既存の解はしばしばドメイン固有であり、モダリティや生成された内容と基礎的内容の相違をもたらすことがある。
医用LVLMにおける幻覚を、二次復号の時間的オーバーヘッドを伴わずに緩和する、疎視的復号法であるMed-VCDを導入する。
Med-VCDには新しいトークン分離戦略が組み込まれており、オンザフライで視覚的に通知されたトークンを選択し、重要な視覚的コンテキストを維持しながら冗長性をトリミングし、効率と信頼性のバランスをとる。
8つの医学データセット(眼科,放射線学,病理学)を対象に,視覚的質問応答,レポート生成,専用幻覚評価において,Med-VCDは平均13倍の精度で実効精度を上げ,基礎的医療用LVLMと比較して幻覚精度を6倍改善することを示した。
関連論文リスト
- Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM Decoding [12.82009632507056]
既存の視覚言語モデル(VLM)はしばしば視覚幻覚に悩まされ、生成した応答は視覚入力に基づかない不正確さを含む。
本稿では、注意に基づいて関連した視覚トークンを反復的に分離し、対応する領域を拡大する新しい視覚的復号化手法であるPerception Magnifier (PM)を提案する。
論文 参考訳(メタデータ) (2025-03-13T09:14:11Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。