論文の概要: MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.20780v1
- Date: Fri, 28 Feb 2025 06:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:27.024537
- Title: MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models
- Title(参考訳): MedHallTune:視覚言語モデルにおける医療幻覚の緩和のための指導訓練ベンチマーク
- Authors: Qiao Yan, Yuchen Yuan, Xiaowei Hu, Yihan Wang, Jiaqi Xu, Jinpeng Li, Chi-Wing Fu, Pheng-Ann Heng,
- Abstract要約: 幻覚は臨床的意思決定を阻害し、診断や治療を害する可能性がある。
本稿では,医療用VLMにおける幻覚の評価と緩和を目的とした大規模ベンチマークであるMedHallTuneを提案する。
我々は、MedHallTuneを用いて、現在の医用および一般のVLMの総合的な評価を行い、臨床精度、関連性、ディテールレベル、リスクレベルなど、主要な指標でそれらの性能を評価する。
- 参考スコア(独自算出の注目度): 81.64135119165277
- License:
- Abstract: The increasing use of vision-language models (VLMs) in healthcare applications presents great challenges related to hallucinations, in which the models may generate seemingly plausible results that are in fact incorrect. Such hallucinations can jeopardize clinical decision making, potentially harming the diagnosis and treatments. In this work, we propose MedHallTune, a large-scale benchmark designed specifically to evaluate and mitigate hallucinations in medical VLMs. Comprising over 100,000 images and 1,000,000 instruction pairs, MedHallTune includes both hallucination and non-hallucination samples, each with ground-truth annotations. We conduct a comprehensive evaluation of current medical and general VLMs using MedHallTune, assessing their performance across key metrics, including clinical accuracy, relevance, detail level, and risk level. The experimental results show that fine-tuning with MedHallTune successfully improves the ability of several existing models to manage hallucinations and boost their zero-shot performance on downstream visual-question-answering (VQA) tasks, making them more reliable for practical medical applications. Our work contributes to the development of more trustworthy VLMs. Codes and dataset will be available at \href{https://github.com/russellyq/MedHallTune}{MedHallTune}.
- Abstract(参考訳): 医療アプリケーションにおける視覚言語モデル(VLM)の利用の増加は、幻覚に関連する大きな課題を示し、そのモデルが実際には正しくないと思われる結果を生み出す可能性がある。
このような幻覚は臨床的意思決定を阻害し、診断や治療を害する可能性がある。
本研究では,医療用VLMにおける幻覚の評価と緩和を目的とした大規模ベンチマークであるMedHallTuneを提案する。
MedHallTuneには幻覚と非幻覚の両方が含まれている。
我々は、MedHallTuneを用いた現在の医療・一般VLMの総合評価を行い、臨床精度、関連性、ディテールレベル、リスクレベルなど、主要な指標でそれらの性能を評価する。
実験結果から,MedHallTune を用いた微調整により,幻覚管理能力が向上し,下流視覚質問応答(VQA)タスクにおけるゼロショット性能が向上し,医療応用への信頼性が向上した。
私たちの仕事は、より信頼できるVLMの開発に寄与します。
コードとデータセットは \href{https://github.com/russellyq/MedHallTune}{MedHallTune} で入手できる。
関連論文リスト
- MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクの実行において顕著な性能を示す。
本稿では,新しい視覚的質問応答(VQA)オブジェクト幻覚攻撃ベンチマークであるHALLUCINOGENを提案する。
バイオメディカルドメインに適合した幻覚攻撃であるMED-HALLUCINOGENを導入した。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。
それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。
領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文 参考訳(メタデータ) (2024-07-03T00:59:03Z) - Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models [67.89204055004028]
LVLM(Large Vision-Language Models)は幻覚に悩まされている。
以前の研究では、さまざまなタイプのタスクと評価指標を特徴とする一連のベンチマークが提案されている。
本稿では,既存の幻覚ベンチマークの信頼性と妥当性を評価するために,幻覚ベンチマーク品質測定フレームワーク(HQM)を提案する。
論文 参考訳(メタデータ) (2024-06-24T20:08:07Z) - Detecting and Evaluating Medical Hallucinations in Large Vision Language Models [22.30139330566514]
大規模ビジョン言語モデル(LVLM)は、医療アプリケーションにとってますます不可欠なものになっている。
LVLMは幻覚への感受性を継承する。
幻覚検出と評価に特化して設計された最初のベンチマークであるMed-HallMarkを紹介する。
また,正確な幻覚検出のための医療用LVLMであるMedHallDetectorも紹介した。
論文 参考訳(メタデータ) (2024-06-14T17:14:22Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z) - Med-HALT: Medical Domain Hallucination Test for Large Language Models [0.0]
本研究では,大規模言語モデル(LLM)における幻覚による課題に焦点を当てた。
我々は,幻覚の評価と低減を目的とした新しいベンチマークとデータセット,Med-HALT (Medical Domain Hallucination Test) を提案する。
論文 参考訳(メタデータ) (2023-07-28T06:43:04Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。