論文の概要: MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.14302v1
- Date: Thu, 20 Feb 2025 06:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:30:12.483916
- Title: MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models
- Title(参考訳): MedHallu:大規模言語モデルにおける医学的幻覚検出のための総合ベンチマーク
- Authors: Shrey Pandit, Jiawei Xu, Junyuan Hong, Zhangyang Wang, Tianlong Chen, Kaidi Xu, Ying Ding,
- Abstract要約: MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
- 参考スコア(独自算出の注目度): 82.30696225661615
- License:
- Abstract: Advancements in Large Language Models (LLMs) and their increasing use in medical question-answering necessitate rigorous evaluation of their reliability. A critical challenge lies in hallucination, where models generate plausible yet factually incorrect outputs. In the medical domain, this poses serious risks to patient safety and clinical decision-making. To address this, we introduce MedHallu, the first benchmark specifically designed for medical hallucination detection. MedHallu comprises 10,000 high-quality question-answer pairs derived from PubMedQA, with hallucinated answers systematically generated through a controlled pipeline. Our experiments show that state-of-the-art LLMs, including GPT-4o, Llama-3.1, and the medically fine-tuned UltraMedical, struggle with this binary hallucination detection task, with the best model achieving an F1 score as low as 0.625 for detecting "hard" category hallucinations. Using bidirectional entailment clustering, we show that harder-to-detect hallucinations are semantically closer to ground truth. Through experiments, we also show incorporating domain-specific knowledge and introducing a "not sure" category as one of the answer categories improves the precision and F1 scores by up to 38% relative to baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩と,その信頼性の厳密な評価が必要である。
重要な課題は幻覚であり、モデルがプラプティブルで事実的に誤った出力を生成する。
医療分野では、これは患者の安全と臨床的意思決定に重大なリスクをもたらす。
この問題を解決するために,医療幻覚検出に特化して設計された最初のベンチマークであるMedHalluを紹介する。
MedHalluは、PubMedQAから派生した1万の高品質な質問応答ペアで構成され、制御パイプラインを通じて体系的に幻覚応答が生成される。
GPT-4o, Llama-3.1, and the medicallytuned UltraMedicalなどの最先端のLSMは, この2次幻覚検出タスクに苦慮し, 最良モデルは「硬い」カテゴリー幻覚を検出するための0.625のF1スコアを達成した。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
実験を通じて,ドメイン固有の知識を取り入れ,解答カテゴリの1つとして「不確実」カテゴリを導入することにより,基準値に対して最大38%の精度とF1スコアが向上することを示した。
関連論文リスト
- Medico: Towards Hallucination Detection and Correction with Multi-source Evidence Fusion [21.565157677548854]
幻覚はLarge Language Models (LLMs) で広まり、生成されたコンテンツは一貫性があるが、実際には正しくない。
マルチソースエビデンス融合による幻覚検出と修正の枠組みであるメディコについて述べる。
複数の情報源から様々な証拠を抽出し、生成されたコンテンツが事実的誤りを含むかどうかを検知し、判断の背後にある根拠を与え、幻覚されたコンテンツを反復的に修正する。
論文 参考訳(メタデータ) (2024-10-14T12:00:58Z) - MedHalu: Hallucinations in Responses to Healthcare Queries by Large Language Models [26.464489158584463]
患者からのリアルタイム医療クエリに対するLCM生成反応における幻覚の先駆的な研究を行う。
MedHaluは、健康関連トピックが多種多様である、注意深く構築された医療幻覚データセットである。
MedHaluDetect フレームワークを導入し,幻覚検出における様々な LLM の機能を評価する。
論文 参考訳(メタデータ) (2024-09-29T00:09:01Z) - Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文 参考訳(メタデータ) (2024-08-02T16:07:15Z) - Detecting and Evaluating Medical Hallucinations in Large Vision Language Models [22.30139330566514]
大規模ビジョン言語モデル(LVLM)は、医療アプリケーションにとってますます不可欠なものになっている。
LVLMは幻覚への感受性を継承する。
幻覚検出と評価に特化して設計された最初のベンチマークであるMed-HallMarkを紹介する。
また,正確な幻覚検出のための医療用LVLMであるMedHallDetectorも紹介した。
論文 参考訳(メタデータ) (2024-06-14T17:14:22Z) - HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation [19.318217051269382]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きく進歩した。
HalluDialは、対話レベルの幻覚自動評価のための、初めての総合的な大規模ベンチマークである。
ベンチマークには4,094の対話があり、合計146,856のサンプルが含まれている。
論文 参考訳(メタデータ) (2024-06-11T08:56:18Z) - ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - Evaluating Hallucinations in Chinese Large Language Models [65.4771562909392]
我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。
GLM-130B と ChatGPT の2種類の幻覚について考察した。
評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
論文 参考訳(メタデータ) (2023-10-05T07:57:09Z) - Med-HALT: Medical Domain Hallucination Test for Large Language Models [0.0]
本研究では,大規模言語モデル(LLM)における幻覚による課題に焦点を当てた。
我々は,幻覚の評価と低減を目的とした新しいベンチマークとデータセット,Med-HALT (Medical Domain Hallucination Test) を提案する。
論文 参考訳(メタデータ) (2023-07-28T06:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。