論文の概要: MedHEval: Benchmarking Hallucinations and Mitigation Strategies in Medical Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.02157v1
- Date: Tue, 04 Mar 2025 00:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:04.409019
- Title: MedHEval: Benchmarking Hallucinations and Mitigation Strategies in Medical Large Vision-Language Models
- Title(参考訳): MedHEval:医療大視領域モデルにおける幻覚と緩和戦略のベンチマーク
- Authors: Aofei Chang, Le Huang, Parminder Bhatia, Taha Kass-Hout, Fenglong Ma, Cao Xiao,
- Abstract要約: 医療分野においてLVLM(Large Vision Language Models)の重要性が高まっている。
MedHEvalは、Med-LVLMの幻覚と緩和戦略を体系的に評価する新しいベンチマークである。
我々は,11個のLVLM(Med-LVLM)を用いて実験を行い,7つの最先端の幻覚緩和技術を評価した。
- 参考スコア(独自算出の注目度): 37.78272983522441
- License:
- Abstract: Large Vision Language Models (LVLMs) are becoming increasingly important in the medical domain, yet Medical LVLMs (Med-LVLMs) frequently generate hallucinations due to limited expertise and the complexity of medical applications. Existing benchmarks fail to effectively evaluate hallucinations based on their underlying causes and lack assessments of mitigation strategies. To address this gap, we introduce MedHEval, a novel benchmark that systematically evaluates hallucinations and mitigation strategies in Med-LVLMs by categorizing them into three underlying causes: visual misinterpretation, knowledge deficiency, and context misalignment. We construct a diverse set of close- and open-ended medical VQA datasets with comprehensive evaluation metrics to assess these hallucination types. We conduct extensive experiments across 11 popular (Med)-LVLMs and evaluate 7 state-of-the-art hallucination mitigation techniques. Results reveal that Med-LVLMs struggle with hallucinations arising from different causes while existing mitigation methods show limited effectiveness, especially for knowledge- and context-based errors. These findings underscore the need for improved alignment training and specialized mitigation strategies to enhance Med-LVLMs' reliability. MedHEval establishes a standardized framework for evaluating and mitigating medical hallucinations, guiding the development of more trustworthy Med-LVLMs.
- Abstract(参考訳): 医療分野ではLVLM(Large Vision Language Models)がますます重要になっているが、医療用LVLM(Med-LVLMs)は専門知識の制限と医療応用の複雑さのために幻覚を頻繁に生んでいる。
既存のベンチマークは、その根本原因と緩和戦略の評価の欠如に基づく幻覚を効果的に評価することができない。
このギャップに対処するために,視覚的誤解釈,知識不足,コンテキスト誤認識の3つの原因に分類することで,覚醒と緩和戦略を体系的に評価する新しいベンチマークであるMedHEvalを導入する。
我々は,これらの幻覚型を評価するために,包括的評価指標を用いた医療用VQAデータセットの多種多様なセットを構築した。
我々は,11種類のLVLM(Med-LVLM)に対して広範な実験を行い,7つの最先端幻覚緩和技術の評価を行った。
その結果、Med-LVLMは異なる原因から生じる幻覚に苦しむ一方、既存の緩和法では、特に知識や文脈に基づく誤りに対して、効果が限られていることが明らかとなった。
これらの結果は、Med-LVLMsの信頼性を高めるために、アライメントトレーニングの改善と特殊緩和戦略の必要性を浮き彫りにした。
MedHEvalは、医療幻覚の評価と緩和のための標準化された枠組みを確立し、より信頼できるMed-LVLMの開発を導く。
関連論文リスト
- HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクの実行において顕著な性能を示す。
本稿では,新しい視覚的質問応答(VQA)オブジェクト幻覚攻撃ベンチマークであるHALLUCINOGENを提案する。
バイオメディカルドメインに適合した幻覚攻撃であるMED-HALLUCINOGENを導入した。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。
LVLMの構造と幻覚の発生の主な原因を紹介する。
LVLMの幻覚評価ベンチマークについて述べる。
論文 参考訳(メタデータ) (2024-10-20T10:58:58Z) - Prompting Medical Large Vision-Language Models to Diagnose Pathologies by Visual Question Answering [6.087954428369633]
本稿では,幻覚を減らし,VQA性能を向上させるMLVLMの2つのプロンプト戦略を提案する。
MIMIC-CXR-JPGおよびChexpertデータセットを用いて検討したところ,診断精度は有意に向上した。
POPE測定値に基づいて、既存のLVLMの偽陰性予測を効果的に抑制し、リコールを約0.07改善する。
論文 参考訳(メタデータ) (2024-07-31T06:34:38Z) - MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。
それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。
領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文 参考訳(メタデータ) (2024-07-03T00:59:03Z) - Detecting and Evaluating Medical Hallucinations in Large Vision Language Models [22.30139330566514]
大規模ビジョン言語モデル(LVLM)は、医療アプリケーションにとってますます不可欠なものになっている。
LVLMは幻覚への感受性を継承する。
幻覚検出と評価に特化して設計された最初のベンチマークであるMed-HallMarkを紹介する。
また,正確な幻覚検出のための医療用LVLMであるMedHallDetectorも紹介した。
論文 参考訳(メタデータ) (2024-06-14T17:14:22Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。