論文の概要: Fact-Controlled Diagnosis of Hallucinations in Medical Text Summarization
- arxiv url: http://arxiv.org/abs/2506.00448v1
- Date: Sat, 31 May 2025 08:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.642667
- Title: Fact-Controlled Diagnosis of Hallucinations in Medical Text Summarization
- Title(参考訳): 医用テキスト要約における幻覚のFact-Controlled診断
- Authors: Suhas BN, Han-Chin Shing, Lei Xu, Mitch Strong, Jon Burnsky, Jessica Ofor, Jordan R. Mason, Susan Chen, Sundararajan Srinivasan, Chaitanya Shivade, Jack Moriarty, Joseph Paul Cohen,
- Abstract要約: 大きな言語モデル(LLM)の幻覚は、患者のケアと臨床的意思決定に重大なリスクをもたらす。
一般ドメイン検出器は、臨床幻覚の検出に苦慮し、ファクトコントロールされた幻覚の性能は、自然幻覚に対する効果を確実に予測できない。
幻覚を数えるファクトベースアプローチを開発し、既存の手法では利用できない説明可能性を提供する。
- 参考スコア(独自算出の注目度): 8.057050705357973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations in large language models (LLMs) during summarization of patient-clinician dialogues pose significant risks to patient care and clinical decision-making. However, the phenomenon remains understudied in the clinical domain, with uncertainty surrounding the applicability of general-domain hallucination detectors. The rarity and randomness of hallucinations further complicate their investigation. In this paper, we conduct an evaluation of hallucination detection methods in the medical domain, and construct two datasets for the purpose: A fact-controlled Leave-N-out dataset -- generated by systematically removing facts from source dialogues to induce hallucinated content in summaries; and a natural hallucination dataset -- arising organically during LLM-based medical summarization. We show that general-domain detectors struggle to detect clinical hallucinations, and that performance on fact-controlled hallucinations does not reliably predict effectiveness on natural hallucinations. We then develop fact-based approaches that count hallucinations, offering explainability not available with existing methods. Notably, our LLM-based detectors, which we developed using fact-controlled hallucinations, generalize well to detecting real-world clinical hallucinations. This research contributes a suite of specialized metrics supported by expert-annotated datasets to advance faithful clinical summarization systems.
- Abstract(参考訳): 大言語モデル(LLM)における患者とクリニックの対話の要約による幻覚は、患者のケアと臨床的意思決定に重大なリスクをもたらす。
しかし、この現象は、一般領域の幻覚検出装置の適用性に関する不確実性を持って、臨床領域でまだ検討されていない。
幻覚の希少さとランダムさは、その調査をさらに複雑にしている。
本稿では,医学領域における幻覚検出手法の評価を行い,その目的のために2つのデータセットを構築した。
一般ドメイン検出器は, 臨床幻覚の検出に苦慮し, ファクトコントロールされた幻覚に対する性能は, 自然幻覚に対する効果を確実に予測できないことを示す。
次に、幻覚を数える事実に基づくアプローチを開発し、既存の手法では利用できない説明可能性を提供する。
特に,ファクトコントロール幻覚を用いて開発したLLMベースの検出器は,実世界の臨床幻覚を検出するのに有効である。
本研究は, 専門家が注釈付けしたデータセットによって支援された, 忠実な臨床要約システムの進歩に寄与する。
関連論文リスト
- HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [53.97060824532454]
マルチモーダルデータの処理と生成が可能なファンデーションモデルは、医療におけるAIの役割を変革した。
医療幻覚を、モデルが誤解を招く医療内容を生成する場合の例と定義する。
以上の結果から,Chain-of-Thought (CoT) や Search Augmented Generation などの推論手法は,幻覚率を効果的に低減できることがわかった。
これらの知見は、ロバストな検出と緩和戦略のための倫理的かつ実践的な衝動を浮き彫りにした。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - Can Your Uncertainty Scores Detect Hallucinated Entity? [14.432545893757677]
本稿では,エンティティレベルで幻覚を注釈する新たなデータセットであるHaluEntityを提案する。
このデータセットに基づいて、17の近代LCMにおける不確実性に基づく幻覚検出手法を評価する。
実験の結果,個々のトークン確率に着目した不確実性推定手法は幻覚を過度に予測する傾向があることがわかった。
論文 参考訳(メタデータ) (2025-02-17T16:01:41Z) - Valuable Hallucinations: Realizable Non-realistic Propositions [2.451326684641447]
本稿では,大規模言語モデル(LLM)における価値幻覚の形式的定義について紹介する。
特定の種類の幻覚が特定の文脈で提供できる潜在的な価値に焦点を当てる。
本稿では,Qwen2.5モデルとHaluQAデータセットを用いて,幻覚の制御と最適化を促進させるReActを用いて実験を行った。
論文 参考訳(メタデータ) (2025-02-16T12:59:11Z) - Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models [35.45859414670449]
我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。
次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。
提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
論文 参考訳(メタデータ) (2024-02-24T05:14:52Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。