論文の概要: MedRECT: A Medical Reasoning Benchmark for Error Correction in Clinical Texts
- arxiv url: http://arxiv.org/abs/2511.00421v1
- Date: Sat, 01 Nov 2025 06:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.769095
- Title: MedRECT: A Medical Reasoning Benchmark for Error Correction in Clinical Texts
- Title(参考訳): MedRECT: 臨床テキストにおける誤り訂正のための医療推論ベンチマーク
- Authors: Naoto Iwase, Hiroki Okuyama, Junichiro Iwasawa,
- Abstract要約: 大規模言語モデル (LLM) は医療応用における将来性を示すが, 臨床用テキストにおける誤りの検出と訂正能力は, 未評価のままである。
我々は,医療ミス処理を3つのサブタスクとして定式化する言語間ベンチマーク(日本語/英語)であるMedRECTを紹介する。
プロプライエタリ、オープンウェイト、理性家族にまたがる9つの現代LSMを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) show increasing promise in medical applications, but their ability to detect and correct errors in clinical texts -- a prerequisite for safe deployment -- remains under-evaluated, particularly beyond English. We introduce MedRECT, a cross-lingual benchmark (Japanese/English) that formulates medical error handling as three subtasks: error detection, error localization (sentence extraction), and error correction. MedRECT is built with a scalable, automated pipeline from the Japanese Medical Licensing Examinations (JMLE) and a curated English counterpart, yielding MedRECT-ja (663 texts) and MedRECT-en (458 texts) with comparable error/no-error balance. We evaluate 9 contemporary LLMs spanning proprietary, open-weight, and reasoning families. Key findings: (i) reasoning models substantially outperform standard architectures, with up to 13.5% relative improvement in error detection and 51.0% in sentence extraction; (ii) cross-lingual evaluation reveals 5-10% performance gaps from English to Japanese, with smaller disparities for reasoning models; (iii) targeted LoRA fine-tuning yields asymmetric improvements in error correction performance (Japanese: +0.078, English: +0.168) while preserving reasoning capabilities; and (iv) our fine-tuned model exceeds human expert performance on structured medical error correction tasks. To our knowledge, MedRECT is the first comprehensive cross-lingual benchmark for medical error correction, providing a reproducible framework and resources for developing safer medical LLMs across languages.
- Abstract(参考訳): 大規模言語モデル(LLM)は医療応用の公約が高まっているが、安全な配備の前提条件である臨床用テキストの誤りを検出・修正する能力は、特に英語以外の分野で評価が低いままだ。
MedRECTは, 誤り検出, 誤り局所化(文抽出), 誤り訂正の3つのサブタスクとして医療ミス処理を定式化する, 言語間ベンチマーク(日本語/英語)である。
MedRECTは、日本医学ライセンス試験 (JMLE) のスケーラブルで自動化されたパイプラインで構築されており、MedRECT-ja (663テキスト) とMedRECT-en (458テキスト) を同等のエラー/エラーバランスで出力する。
プロプライエタリ、オープンウェイト、理性家族にまたがる9つの現代LSMを評価した。
主な発見
(i)推論モデルは,誤り検出の相対的改善が13.5%,文抽出の51.0%において,標準アーキテクチャを大幅に上回っている。
(ii)言語横断評価では,日本語と英語の5~10%のパフォーマンス差が示され,推論モデルの相違が小さい。
(iii)LoRA微調整は、推論能力を保ちながら、誤り訂正性能(日本語:+0.078、英語:+0.168)が非対称に向上する。
(4) 細調整モデルは, 構造化された医療ミス訂正タスクにおいて, 人間の専門的性能を上回っている。
我々の知る限り、MedRECTは医療ミス訂正のための最初の総合的な言語間ベンチマークであり、より安全な医療用LLMを開発するための再現可能なフレームワークとリソースを提供する。
関連論文リスト
- SwasthLLM: a Unified Cross-Lingual, Multi-Task, and Meta-Learning Zero-Shot Framework for Medical Diagnosis Using Contrastive Representations [0.4077787659104315]
SwasthLLMは、医用診断のための統一、ゼロショット、クロスランガル、マルチタスク学習フレームワークである。
英語、ヒンディー語、ベンガル語で、言語固有の微調整を必要としない。
SwasthLLMは97.22%、F1スコア97.17%という高い診断性能を達成している。
論文 参考訳(メタデータ) (2025-09-24T21:20:49Z) - From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文 参考訳(メタデータ) (2025-09-20T09:10:26Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes [22.401540975926324]
MEDECは医学的誤りの検出と修正のための最初の公開ベンチマークである。
MEDECは3,848の臨床的テキストで構成されており、3つの病院システムから488の臨床ノートが含まれている。
医学的知識と推論能力の両方を必要とする医療ミスの検出・修正タスクについて,最近のLCMを評価した。
論文 参考訳(メタデータ) (2024-12-26T15:54:10Z) - WangLab at MEDIQA-CORR 2024: Optimized LLM-based Programs for Medical Error Detection and Correction [5.7931394318054155]
3つのサブタスクすべてでトップパフォーマンスを達成したアプローチを提示する。
微妙な誤りを含むMSデータセットに対して,検索に基づくシステムを開発した。
UWデータセットでは、より現実的な臨床ノートを反映して、エラーを検出し、ローカライズし、修正するためのモジュールのパイプラインを作成しました。
論文 参考訳(メタデータ) (2024-04-22T19:31:45Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。