論文の概要: A Systematic Analysis of Large Language Models with RAG-enabled Dynamic Prompting for Medical Error Detection and Correction
- arxiv url: http://arxiv.org/abs/2511.19858v2
- Date: Wed, 26 Nov 2025 09:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.433658
- Title: A Systematic Analysis of Large Language Models with RAG-enabled Dynamic Prompting for Medical Error Detection and Correction
- Title(参考訳): 医療エラー検出・補正のためのRAG対応動的プロンプトを用いた大規模言語モデルの体系的解析
- Authors: Farzad Ahmed, Joniel Augustine Jerome, Meliha Yetisgen, Özlem Uzuner,
- Abstract要約: 我々は、ゼロショットプロンプト、ランダムな例による静的プロンプト、検索強化された動的プロンプトを評価する。
精度,リコール,偽陽性率 (FPR) , ROUGE-1, BLEURT, BERTScore を用いて誤差補正を行った。
- 参考スコア(独自算出の注目度): 8.312687115594512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: Clinical documentation contains factual, diagnostic, and management errors that can compromise patient safety. Large language models (LLMs) may help detect and correct such errors, but their behavior under different prompting strategies remains unclear. We evaluate zero-shot prompting, static prompting with random exemplars (SPR), and retrieval-augmented dynamic prompting (RDP) for three subtasks of medical error processing: error flag detection, error sentence detection, and error correction. Methods: Using the MEDEC dataset, we evaluated nine instruction-tuned LLMs (GPT, Claude, Gemini, and OpenAI o-series models). We measured performance using accuracy, recall, false-positive rate (FPR), and an aggregate score of ROUGE-1, BLEURT, and BERTScore for error correction. We also analyzed example outputs to identify failure modes and differences between LLM and clinician reasoning. Results: Zero-shot prompting showed low recall in both detection tasks, often missing abbreviation-heavy or atypical errors. SPR improved recall but increased FPR. Across all nine LLMs, RDP reduced FPR by about 15 percent, improved recall by 5 to 10 percent in error sentence detection, and generated more contextually accurate corrections. Conclusion: Across diverse LLMs, RDP outperforms zero-shot and SPR prompting. Using retrieved exemplars improves detection accuracy, reduces false positives, and enhances the reliability of medical error correction.
- Abstract(参考訳): 目的: 臨床文書には、患者の安全性を損なう可能性がある事実、診断、管理上のエラーが含まれている。
大規模言語モデル(LLM)はそのようなエラーを検出し、修正するのに役立つが、異なるプロンプト戦略の下でのそれらの振る舞いはいまだに不明である。
医用エラー処理の3つのサブタスク(エラーフラグ検出、エラー文検出、エラー訂正)に対して、ゼロショットプロンプト、ランダム例付き静的プロンプト(SPR)、検索強化動的プロンプト(RDP)を評価した。
方法: MEDECデータセットを用いて,9つの命令調整LDM(GPT,Claude,Gemini,OpenAIoシリーズモデル)を評価した。
精度,リコール,偽陽性率 (FPR) , ROUGE-1, BLEURT, BERTScore のスコアを用いて誤差補正を行った。
また, 障害モードの同定のためのサンプル出力と, LLMと臨床用推論の差異も分析した。
結果: ゼロショットプロンプトは両方の検出タスクで低リコールを示し, しばしば省略重みや非典型的誤りを欠いた。
SPRはリコールを改善するがFPRを増加させた。
9つのLLM全体で、RDPはFPRを約15%削減し、エラー文の検出においてリコールを5~10%改善し、より文脈的に正確な修正を生み出した。
結論: 多様なLLMにおいて、RDPはゼロショットとSPRのプロンプトより優れています。
検索した例を使用すると、検出精度が向上し、偽陽性が減少し、医療ミス訂正の信頼性が向上する。
関連論文リスト
- Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation [3.952186976672079]
本稿では,高速エンジニアリングや小型微調整を含む軽量な介入により,探索手法の計算オーバーヘッドを伴わずに精度を向上できることを示す。
階層的なニアミスエラーに対処するために,単体タスクとパイプラインコンポーネントの両方に臨床コード検証を導入する。
論文 参考訳(メタデータ) (2025-10-08T23:50:58Z) - Hide and Seek with LLMs: An Adversarial Game for Sneaky Error Generation and Self-Improving Diagnosis [51.88592148135258]
本稿では,エラー生成と診断のための動的対向フレームワークであるHie and Seek Game (HSG)を提案する。
HSGには2つの敵対的役割がある: Sneakyは、微妙で偽りの推論エラーを発生させることで「隠す」ことと、それらを正確に検出するために「探す」診断である。
いくつかの数学推論タスクの実験では、HSGはエラー診断を著しく向上し、GPT-4oのようなベースラインよりも16.8%--31.4%高い精度を達成している。
論文 参考訳(メタデータ) (2025-08-05T12:45:21Z) - Fewer Hallucinations, More Verification: A Three-Stage LLM-Based Framework for ASR Error Correction [4.304383298057423]
本稿では, 誤り前検出, 連鎖型サブタスク反復補正, 推論プロセス検証の3段階からなる信頼性補正フレームワーク(RLLM-CF)を提案する。
AISHELL-1, AISHELL-2, Librispeechの実験により, このフレームワークによって強化されたGPT-4oモデルは, CER/WERの相対減少率21%, 11%, 9%, 11.4%を達成した。
論文 参考訳(メタデータ) (2025-05-30T08:40:49Z) - Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs [87.79350168490475]
本研究は, 自己整合誤差を正式に定義し, 主流検出手法の評価を行う。
4種類の検出方法は全て、自己整合性エラーを検出するのにかなり苦労している。
自己整合性誤差がLLM間でしばしば異なるという観測により、我々は単純で効果的なクロスモデルプローブを提案する。
論文 参考訳(メタデータ) (2025-05-23T09:18:56Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Not All Errors Are Equal: Investigation of Speech Recognition Errors in Alzheimer's Disease Detection [62.942077348224046]
アルツハイマー病(AD)の自動診断における音声認識の役割
近年の研究では,単語誤り率(WER)とAD検出性能の非線形関係が明らかにされている。
本研究は,BERTを用いたAD検出システムにおけるASR転写誤りの影響について,一連の解析を行った。
論文 参考訳(メタデータ) (2024-12-09T09:32:20Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - WangLab at MEDIQA-CORR 2024: Optimized LLM-based Programs for Medical Error Detection and Correction [5.7931394318054155]
3つのサブタスクすべてでトップパフォーマンスを達成したアプローチを提示する。
微妙な誤りを含むMSデータセットに対して,検索に基づくシステムを開発した。
UWデータセットでは、より現実的な臨床ノートを反映して、エラーを検出し、ローカライズし、修正するためのモジュールのパイプラインを作成しました。
論文 参考訳(メタデータ) (2024-04-22T19:31:45Z) - Word-level confidence estimation for RNN transducers [7.12355127219356]
本稿では、リカレント・ネットワーク・トランスデューサ(RNN-T)を用いた音声認識(ASR)システムに適した軽量神経信頼モデルを提案する。
他の既存手法と比較して,本モデルは, (a) 認識された単語に関連付けられた時間情報を用いて計算複雑性を低減し, (b) サブワードと単語列をマッピングするためのシンプルでエレガントなトリックを利用する。
論文 参考訳(メタデータ) (2021-09-28T18:38:00Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。