論文の概要: MedHal: An Evaluation Dataset for Medical Hallucination Detection
- arxiv url: http://arxiv.org/abs/2504.08596v1
- Date: Fri, 11 Apr 2025 14:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 16:58:45.58304
- Title: MedHal: An Evaluation Dataset for Medical Hallucination Detection
- Title(参考訳): MedHal:医学的幻覚検出のための評価データセット
- Authors: Gaya Mehenni, Amal Zouaq,
- Abstract要約: MedHalは、医療用テキストの幻覚をモデルが検出できるかどうかを評価するために設計された、新しい大規模データセットである。
MedHalは,(1)多様な医学的テキストソースとタスクを取り入れ,(2)医学的幻覚検出モデルの訓練に適した注釈付きサンプルを大量に提供し,(3)モデル学習を導くための事実的不整合の説明を含むギャップに対処する。
- 参考スコア(独自算出の注目度): 2.5782420501870296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MedHal, a novel large-scale dataset specifically designed to evaluate if models can detect hallucinations in medical texts. Current hallucination detection methods face significant limitations when applied to specialized domains like medicine, where they can have disastrous consequences. Existing medical datasets are either too small, containing only a few hundred samples, or focus on a single task like Question Answering or Natural Language Inference. MedHal addresses these gaps by: (1) incorporating diverse medical text sources and tasks; (2) providing a substantial volume of annotated samples suitable for training medical hallucination detection models; and (3) including explanations for factual inconsistencies to guide model learning. We demonstrate MedHal's utility by training and evaluating a baseline medical hallucination detection model, showing improvements over general-purpose hallucination detection approaches. This resource enables more efficient evaluation of medical text generation systems while reducing reliance on costly expert review, potentially accelerating the development of medical AI research.
- Abstract(参考訳): MedHalは、医療用テキストの幻覚をモデルが検出できるかどうかを評価するために設計された、新しい大規模データセットである。
現在の幻覚検出法は、医学などの専門分野に適用した場合、破滅的な結果をもたらす可能性のある重要な限界に直面している。
既存の医療データセットは小さすぎるか、数百のサンプルしか含まれていないか、質問回答や自然言語推論のような単一のタスクに集中している。
MedHalは,(1)多様な医学的テキストソースとタスクを取り入れ,(2)医学的幻覚検出モデルの訓練に適した注釈付きサンプルを大量に提供し,(3)モデル学習を導くための事実的不整合の説明を含む,これらのギャップに対処する。
我々は,MedHalの医療幻覚検出モデルのトレーニングと評価を行い,汎用幻覚検出手法の改善を示す。
このリソースは、コストのかかる専門家レビューへの依存を低減しつつ、医療用テキスト生成システムのより効率的な評価を可能にし、医療用AI研究の開発を加速させる可能性がある。
関連論文リスト
- MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models [81.64135119165277]
幻覚は臨床的意思決定を阻害し、診断や治療を害する可能性がある。
本稿では,医療用VLMにおける幻覚の評価と緩和を目的とした大規模ベンチマークであるMedHallTuneを提案する。
我々は、MedHallTuneを用いて、現在の医用および一般のVLMの総合的な評価を行い、臨床精度、関連性、ディテールレベル、リスクレベルなど、主要な指標でそれらの性能を評価する。
論文 参考訳(メタデータ) (2025-02-28T06:59:49Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [53.97060824532454]
マルチモーダルデータの処理と生成が可能なファンデーションモデルは、医療におけるAIの役割を変革した。
医療幻覚を、モデルが誤解を招く医療内容を生成する場合の例と定義する。
以上の結果から,Chain-of-Thought (CoT) や Search Augmented Generation などの推論手法は,幻覚率を効果的に低減できることがわかった。
これらの知見は、ロバストな検出と緩和戦略のための倫理的かつ実践的な衝動を浮き彫りにした。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。
それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。
領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文 参考訳(メタデータ) (2024-07-03T00:59:03Z) - CoMT: Chain-of-Medical-Thought Reduces Hallucination in Medical Report Generation [20.59298361626719]
医療報告生成における幻覚を緩和するためのチェーン・オブ・メディカル・シント・アプローチ(CoMT)を提案する。
CoMTは、診断手順を分解することで、人間の医師の認知過程を模倣しようとしている。
論文 参考訳(メタデータ) (2024-06-17T12:03:32Z) - Detecting and Evaluating Medical Hallucinations in Large Vision Language Models [22.30139330566514]
大規模ビジョン言語モデル(LVLM)は、医療アプリケーションにとってますます不可欠なものになっている。
LVLMは幻覚への感受性を継承する。
幻覚検出と評価に特化して設計された最初のベンチマークであるMed-HallMarkを紹介する。
また,正確な幻覚検出のための医療用LVLMであるMedHallDetectorも紹介した。
論文 参考訳(メタデータ) (2024-06-14T17:14:22Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with Large Language Models [11.218649399559691]
幻覚のないデータの微調整は、Llama 2の要約毎の幻覚を2.60から1.55に効果的に減少させる。
一般的なメトリクスは、忠実さや品質とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2024-02-23T16:32:28Z) - Med-HALT: Medical Domain Hallucination Test for Large Language Models [0.0]
本研究では,大規模言語モデル(LLM)における幻覚による課題に焦点を当てた。
我々は,幻覚の評価と低減を目的とした新しいベンチマークとデータセット,Med-HALT (Medical Domain Hallucination Test) を提案する。
論文 参考訳(メタデータ) (2023-07-28T06:43:04Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。