論文の概要: Expert-level validation of AI-generated medical text with scalable language models
- arxiv url: http://arxiv.org/abs/2507.03152v1
- Date: Thu, 03 Jul 2025 20:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.597819
- Title: Expert-level validation of AI-generated medical text with scalable language models
- Title(参考訳): スケーラブル言語モデルを用いたAI生成医療テキストのエキスパートレベル検証
- Authors: Asad Aali, Vasiliki Bikia, Maya Varma, Nicole Chiou, Sophie Ostmeier, Arnav Singhvi, Magdalini Paschali, Ashwin Kumar, Andrew Johnston, Karimar Amador-Martinez, Eduardo Juan Perez Guerrero, Paola Naovi Cruz Rivera, Sergios Gatidis, Christian Bluethgen, Eduardo Pontes Reis, Eddy D. Zandee van Rilland, Poonam Laxmappa Hosamani, Kevin R Keet, Minjoung Go, Evelyn Ling, David B. Larson, Curtis Langlotz, Roxana Daneshjou, Jason Hom, Sanmi Koyejo, Emily Alsentzer, Akshay S. Chaudhari,
- Abstract要約: LM生成医療用テキストの精度と安全性を即時評価する必要がある。
現在、このような評価は手作業による医師の診察にのみ依存している。
我々は,合成データを利用した自己教師型フレームワークであるMedVALを提案し,評価器LMを訓練する。
- 参考スコア(独自算出の注目度): 12.38276474827152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing use of language models (LMs) in clinical environments, there is an immediate need to evaluate the accuracy and safety of LM-generated medical text. Currently, such evaluation relies solely on manual physician review. However, detecting errors in LM-generated text is challenging because 1) manual review is costly and 2) expert-composed reference outputs are often unavailable in real-world settings. While the "LM-as-judge" paradigm (a LM evaluating another LM) offers scalable evaluation, even frontier LMs can miss subtle but clinically significant errors. To address these challenges, we propose MedVAL, a self-supervised framework that leverages synthetic data to train evaluator LMs to assess whether LM-generated medical outputs are factually consistent with inputs, without requiring physician labels or reference outputs. To evaluate LM performance, we introduce MedVAL-Bench, a dataset containing 840 outputs annotated by physicians, following a physician-defined taxonomy of risk levels and error categories. Across 6 diverse medical tasks and 10 state-of-the-art LMs spanning open-source, proprietary, and medically adapted models, MedVAL fine-tuning significantly improves (p < 0.001) alignment with physicians on both seen and unseen tasks, increasing average F1 scores from 66% to 83%, with per-sample safety classification scores up to 86%. MedVAL improves the performance of even the best-performing proprietary LM (GPT-4o) by 8%. To support a scalable, risk-aware pathway towards clinical integration, we open-source the 1) codebase ( https://github.com/StanfordMIMI/MedVAL ), 2) MedVAL-Bench ( https://huggingface.co/datasets/stanfordmimi/MedVAL-Bench ), and 3) MedVAL-4B ( https://huggingface.co/stanfordmimi/MedVAL-4B ), the best-performing open-source LM. Our research provides the first evidence of LMs approaching expert-level validation ability for medical text.
- Abstract(参考訳): 臨床環境における言語モデル (LM) の利用の増加に伴い, LM生成医療用テキストの精度と安全性を即時評価する必要がある。
現在、このような評価は手作業による医師の診察にのみ依存している。
しかし、LM生成テキストにおける誤り検出は困難である。
1)マニュアルレビューは費用がかかる。
2) 専門家による参照出力は実世界の設定では利用できないことが多い。
LM-as-judge"パラダイム(もう1つのLMを評価するLM)はスケーラブルな評価を提供するが、フロンティアのLMでさえ微妙だが臨床的に重要な誤りを見逃す可能性がある。
これらの課題に対処するために、医用ラベルや基準出力を必要とせず、LM生成医療出力が実際に入力と一致しているかどうかを評価するために、合成データを活用した自己教師型フレームワークであるMedVALを提案する。
MedVal-Benchは,医師がアノテートした840のアウトプットを含むデータセットで,リスクレベルとエラーカテゴリの分類を医師が定義した。
6つの多様な医療タスクと10の最先端のLMがオープンソース、プロプライエタリ、医療に適応したモデルにまたがっており、MedVALの微調整は、医師が目に見えるタスクと見えないタスクの両方において、医師との調整(p < 0.001)を大幅に改善し、平均F1スコアは66%から83%に増加し、サンプルごとの安全分類は86%に向上した。
MedVALは、最高のパフォーマンスを持つプロプライエタリなLM(GPT-4o)でさえも8%向上する。
臨床統合に向けたスケーラブルでリスク対応の経路をサポートするために、我々はオープンソースにした。
https://github.com/StanfordMIMI/MedVAL )。
2) MedVAL-Bench (https://huggingface.co/datasets/stanfordmimi/MedVAL-Bench )
3) MedVAL-4B (https://huggingface.co/stanfordmimi/MedVAL-4B )は、オープンソース LM として最高のパフォーマンスである。
本研究は,医用テキストに対する専門家レベルの検証能力にアプローチしたLMの最初の証拠を提供する。
関連論文リスト
- TheBlueScrubs-v1, a comprehensive curated medical dataset derived from the internet [1.4043931310479378]
BlueScrubs-v1は、広範囲のインターネットコーパスから得られた2500億以上の医療トークンの収集されたデータセットである。
各テキストには、医療関連性、精度、事実の詳細、安全性と倫理基準を含む3つのLCMベースの品質スコアが割り当てられている。
このData Descriptorは、データセットの作成と検証について詳述し、医療AI研究の潜在的有用性について説明している。
論文 参考訳(メタデータ) (2025-04-01T22:25:19Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - ACE-$M^3$: Automatic Capability Evaluator for Multimodal Medical Models [34.81544597731073]
ACE-$M3$, textbfAutomatic textbfCapability textbfEvaluator for textbfMultimodal textbfMedical textbfModelsを紹介する。
最初に、標準的な医療評価基準に基づく詳細な分析と簡潔な最終スコアを提供するために、ブランチマージアーキテクチャを利用する。
論文 参考訳(メタデータ) (2024-12-16T05:15:43Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese
Medical Exam Dataset [31.047827145874844]
中国国立医学ライセンス試験から得られたCMExamについて紹介する。
CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。
LLMの詳細な分析のために、我々は医療専門家に、病気グループ、臨床部門、医学分野、能力領域、難易度レベルを含む5つの追加の質問点アノテーションのラベル付けを依頼した。
論文 参考訳(メタデータ) (2023-06-05T16:48:41Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。