論文の概要: Detecting and Evaluating Medical Hallucinations in Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2406.10185v1
- Date: Fri, 14 Jun 2024 17:14:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 12:37:07.719915
- Title: Detecting and Evaluating Medical Hallucinations in Large Vision Language Models
- Title(参考訳): 大規模視覚言語モデルにおける医学的幻覚の検出と評価
- Authors: Jiawei Chen, Dingkang Yang, Tong Wu, Yue Jiang, Xiaolu Hou, Mingcheng Li, Shunli Wang, Dongling Xiao, Ke Li, Lihua Zhang,
- Abstract要約: 大規模ビジョン言語モデル(LVLM)は、医療アプリケーションにとってますます不可欠なものになっている。
LVLMは幻覚への感受性を継承する。
幻覚検出と評価に特化して設計された最初のベンチマークであるMed-HallMarkを紹介する。
また,正確な幻覚検出のための医療用LVLMであるMedHallDetectorも紹介した。
- 参考スコア(独自算出の注目度): 22.30139330566514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision Language Models (LVLMs) are increasingly integral to healthcare applications, including medical visual question answering and imaging report generation. While these models inherit the robust capabilities of foundational Large Language Models (LLMs), they also inherit susceptibility to hallucinations-a significant concern in high-stakes medical contexts where the margin for error is minimal. However, currently, there are no dedicated methods or benchmarks for hallucination detection and evaluation in the medical field. To bridge this gap, we introduce Med-HallMark, the first benchmark specifically designed for hallucination detection and evaluation within the medical multimodal domain. This benchmark provides multi-tasking hallucination support, multifaceted hallucination data, and hierarchical hallucination categorization. Furthermore, we propose the MediHall Score, a new medical evaluative metric designed to assess LVLMs' hallucinations through a hierarchical scoring system that considers the severity and type of hallucination, thereby enabling a granular assessment of potential clinical impacts. We also present MediHallDetector, a novel Medical LVLM engineered for precise hallucination detection, which employs multitask training for hallucination detection. Through extensive experimental evaluations, we establish baselines for popular LVLMs using our benchmark. The findings indicate that MediHall Score provides a more nuanced understanding of hallucination impacts compared to traditional metrics and demonstrate the enhanced performance of MediHallDetector. We hope this work can significantly improve the reliability of LVLMs in medical applications. All resources of this work will be released soon.
- Abstract(参考訳): LVLM(Large Vision Language Models)は、医学的視覚的質問応答や画像レポート生成など、医療応用においてますます不可欠なものになっている。
これらのモデルは基礎言語モデル(LLM)の堅牢な能力を継承するが、幻覚への感受性も継承する。
しかし、現在、医学分野での幻覚検出と評価のための専用の方法やベンチマークは存在しない。
このギャップを埋めるために、医療マルチモーダル領域における幻覚検出と評価に特化した最初のベンチマークであるMed-HallMarkを紹介する。
このベンチマークは、マルチタスク幻覚サポート、マルチフェイス幻覚データ、階層幻覚分類を提供する。
さらに,LVLMの幻覚評価のための医療評価尺度であるMedHall Scoreを提案する。
幻覚検出のための新しい医療用LVLMであるMedHallDetectorについても紹介する。
広範に実験を行った結果,このベンチマークを用いてLVLMのベースラインを確立することができた。
その結果,MedHall Scoreは,従来の測定値と比較して幻覚効果の微妙な理解を提供し,MedHallDetectorの性能向上を実証した。
この研究が医療応用におけるLVLMの信頼性を大幅に向上させることを期待している。
この作業のすべてのリソースはまもなくリリースされます。
関連論文リスト
- A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。
LVLMの構造と幻覚の発生の主な原因を紹介する。
LVLMの幻覚評価ベンチマークについて述べる。
論文 参考訳(メタデータ) (2024-10-20T10:58:58Z) - Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文 参考訳(メタデータ) (2024-08-02T16:07:15Z) - MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。
それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。
領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文 参考訳(メタデータ) (2024-07-03T00:59:03Z) - Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models [67.89204055004028]
LVLM(Large Vision-Language Models)は幻覚に悩まされている。
以前の研究では、さまざまなタイプのタスクと評価指標を特徴とする一連のベンチマークが提案されている。
本稿では,既存の幻覚ベンチマークの信頼性と妥当性を評価するために,幻覚ベンチマーク品質測定フレームワーク(HQM)を提案する。
論文 参考訳(メタデータ) (2024-06-24T20:08:07Z) - HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation [19.318217051269382]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きく進歩した。
HalluDialは、対話レベルの幻覚自動評価のための、初めての総合的な大規模ベンチマークである。
ベンチマークには4,094の対話があり、合計146,856のサンプルが含まれている。
論文 参考訳(メタデータ) (2024-06-11T08:56:18Z) - Unified Hallucination Detection for Multimodal Large Language Models [44.333451078750954]
マルチモーダル大言語モデル(MLLM)は幻覚の重要な問題に悩まされている。
本稿では,幻覚検出手法の進歩を評価するために,メタ評価ベンチマークであるMHaluBenchを提案する。
我々は,幻覚の発生を確実に検証するために,一連の補助ツールを活用する,新しい統合型マルチモーダル幻覚検出フレームワークUNIHDを公表した。
論文 参考訳(メタデータ) (2024-02-05T16:56:11Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z) - Med-HALT: Medical Domain Hallucination Test for Large Language Models [0.0]
本研究では,大規模言語モデル(LLM)における幻覚による課題に焦点を当てた。
我々は,幻覚の評価と低減を目的とした新しいベンチマークとデータセット,Med-HALT (Medical Domain Hallucination Test) を提案する。
論文 参考訳(メタデータ) (2023-07-28T06:43:04Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。