論文の概要: MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes
- arxiv url: http://arxiv.org/abs/2412.19260v1
- Date: Thu, 26 Dec 2024 15:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:28.383123
- Title: MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes
- Title(参考訳): MEDEC : 臨床ノートにおける医療エラー検出と訂正のためのベンチマーク
- Authors: Asma Ben Abacha, Wen-wai Yim, Yujuan Fu, Zhaoyi Sun, Meliha Yetisgen, Fei Xia, Thomas Lin,
- Abstract要約: MEDECは医学的誤りの検出と修正のための最初の公開ベンチマークである。
MEDECは3,848の臨床的テキストで構成されており、3つの病院システムから488の臨床ノートが含まれている。
医学的知識と推論能力の両方を必要とする医療ミスの検出・修正タスクについて,最近のLCMを評価した。
- 参考スコア(独自算出の注目度): 22.401540975926324
- License:
- Abstract: Several studies showed that Large Language Models (LLMs) can answer medical questions correctly, even outperforming the average human score in some medical exams. However, to our knowledge, no study has been conducted to assess the ability of language models to validate existing or generated medical text for correctness and consistency. In this paper, we introduce MEDEC (https://github.com/abachaa/MEDEC), the first publicly available benchmark for medical error detection and correction in clinical notes, covering five types of errors (Diagnosis, Management, Treatment, Pharmacotherapy, and Causal Organism). MEDEC consists of 3,848 clinical texts, including 488 clinical notes from three US hospital systems that were not previously seen by any LLM. The dataset has been used for the MEDIQA-CORR shared task to evaluate seventeen participating systems [Ben Abacha et al., 2024]. In this paper, we describe the data creation methods and we evaluate recent LLMs (e.g., o1-preview, GPT-4, Claude 3.5 Sonnet, and Gemini 2.0 Flash) for the tasks of detecting and correcting medical errors requiring both medical knowledge and reasoning capabilities. We also conducted a comparative study where two medical doctors performed the same task on the MEDEC test set. The results showed that MEDEC is a sufficiently challenging benchmark to assess the ability of models to validate existing or generated notes and to correct medical errors. We also found that although recent LLMs have a good performance in error detection and correction, they are still outperformed by medical doctors in these tasks. We discuss the potential factors behind this gap, the insights from our experiments, the limitations of current evaluation metrics, and share potential pointers for future research.
- Abstract(参考訳): いくつかの研究では、LLM(Large Language Models)が医学的問題に正しく答えることができ、いくつかの医学的試験では平均的な人間のスコアよりも優れていた。
しかし、我々の知る限り、言語モデルが既存のあるいは生成された医療用テキストを正当性および整合性に検証する能力を評価するための研究は行われていない。
本稿では,5種類のエラー(診断,管理,治療,薬物療法,因果臓器療法)を対象とする,医療的エラー検出と修正のための最初の公開ベンチマークであるMEDEC(https://github.com/abachaa/MEDEC)を紹介する。
MEDECは3,848の臨床的テキストで構成されており、以前はLLMでは見られなかった3つの病院システムから488の臨床ノートが含まれている。
このデータセットは、MEDIQA-CORR共有タスクに使用されており、17の参加システム(Ben Abacha et al , 2024]を評価している。
本稿では,医療知識と推論能力の両方を必要とする医療ミスを検出し,修正するタスクについて,最近のLCM(例:o1-preview, GPT-4, Claude 3.5 Sonnet, Gemini 2.0 Flash)を評価する。
また,MEDECテストセットで2人の医師が同じ仕事をした事例についても比較検討を行った。
その結果、MEDECは既存の音符や生成された音符を検証し、医療ミスを訂正するモデルの能力を評価するのに十分な挑戦的なベンチマークであることが判明した。
また,近年のLSMは誤り検出と修正に優れた性能を示したが,これらの課題では医師が依然として優れていた。
このギャップの背後にある潜在的な要因、我々の実験からの洞察、現在の評価指標の限界、そして将来の研究のための潜在的なポインタの共有について論じる。
関連論文リスト
- RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - MedExQA: Medical Question Answering Benchmark with Multiple Explanations [2.2246416434538308]
本稿では,MedExQAについて紹介する。MedExQAは,医学的知識に関する大規模言語モデル (LLM) の理解を説明を通じて評価するための,医学的質問応答の新しいベンチマークである。
5つの異なる医療専門分野のデータセットを構築することで、現在の医療QAベンチマークの大きなギャップに対処する。
本研究は、医学LLMにおける説明可能性の重要性を強調し、分類精度以上のモデルを評価する効果的な方法論を提案し、特定の分野である音声言語病理学に光を当てる。
論文 参考訳(メタデータ) (2024-06-10T14:47:04Z) - Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As [1.0034156461900003]
大規模言語モデル(LLM)は言語ベースの臨床実践の多くの側面において有望な結果を示す。
包括的医療知識グラフ(50,00以上の査読済み記事から得られたデータ)を用いて「EBMQA」を作成しました。
私たちはこのデータセットを、最先端の2つのLLMであるChat-GPT4とClaude3-Opusについて24,500以上の質問を使ってベンチマークした。
いずれのLLMも数値QAよりもセマンティックに優れており,Claude3は数値QAでGPT4を上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T08:41:46Z) - WangLab at MEDIQA-CORR 2024: Optimized LLM-based Programs for Medical Error Detection and Correction [5.7931394318054155]
3つのサブタスクすべてでトップパフォーマンスを達成したアプローチを提示する。
微妙な誤りを含むMSデータセットに対して,検索に基づくシステムを開発した。
UWデータセットでは、より現実的な臨床ノートを反映して、エラーを検出し、ローカライズし、修正するためのモジュールのパイプラインを作成しました。
論文 参考訳(メタデータ) (2024-04-22T19:31:45Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。