論文の概要: Case-Specific Rubrics for Clinical AI Evaluation: Methodology, Validation, and LLM-Clinician Agreement Across 823 Encounters
- arxiv url: http://arxiv.org/abs/2604.24710v1
- Date: Mon, 27 Apr 2026 17:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.263733
- Title: Case-Specific Rubrics for Clinical AI Evaluation: Methodology, Validation, and LLM-Clinician Agreement Across 823 Encounters
- Title(参考訳): 臨床AI評価のための事例--方法論・検証・LCM-クリニシアン協定(第823回)
- Authors: Aaryan Shah, Andrew Hines, Alexia Downs, Denis Bajet, Paulius Mui, Fabiano Araujo, Laura Offutt, Aida Rutledge, Elizabeth Jimenez,
- Abstract要約: スコアリングインスタンス毎のエキスパートレビューを必要とするメソッドは、安全で反復的なデプロイメントには遅すぎるし、コストも高くつく。
20人の臨床医が、プライマリケア、精神医学、腫瘍学、行動保健の823の患者に1,646個のルーブリックを作成した。
ケース固有のルーリックは、専門家の判断を維持しながら3桁のコストで自動化を可能にする、臨床AI評価のためのパスを提供する。
- 参考スコア(独自算出の注目度): 3.018184429993625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective. Clinical AI documentation systems require evaluation methodologies that are clinically valid, economically viable, and sensitive to iterative changes. Methods requiring expert review per scoring instance are too slow and expensive for safe, iterative deployment. We present a case-specific, clinician-authored rubric methodology for clinical AI evaluation and examine whether LLM-generated rubrics can approximate clinician agreement. Materials and Methods. Twenty clinicians authored 1,646 rubrics for 823 clinical cases (736 real-world, 87 synthetic) across primary care, psychiatry, oncology, and behavioral health. Each rubric was validated by confirming that an LLM-based scoring agent consistently scored clinician-preferred outputs higher than rejected ones. Seven versions of an EHR-embedded AI agent for clinicians were evaluated across all cases. Results. Clinician-authored rubrics discriminated effectively between high- and low-quality outputs (median score gap: 82.9%) with high scoring stability (median range: 0.00%). Median scores improved from 84% to 95%. In later experiments, clinician-LLM ranking agreement (tau: 0.42-0.46) matched or exceeded clinician-clinician agreement (tau: 0.38-0.43), attributable to both ceiling compression and LLM rubric improvement. Discussion. This convergence supports incorporating LLM rubrics alongside clinician-authored ones. At roughly 1,000 times lower cost, LLM rubrics enable substantially greater evaluation coverage, while continued clinical authorship grounds evaluation in expert judgment. Ceiling compression poses a methodological challenge for future inter-rater agreement studies. Conclusion. Case-specific rubrics offer a path for clinical AI evaluation that preserves expert judgment while enabling automation at three orders lower cost. Clinician-authored rubrics establish the baseline against which LLM rubrics are validated.
- Abstract(参考訳): 目的。
臨床AIドキュメンテーションシステムは、臨床的に有効であり、経済的に有効であり、反復的な変化に敏感である評価方法を必要とする。
スコアリングインスタンス毎のエキスパートレビューを必要とするメソッドは、安全で反復的なデプロイメントには遅すぎるし、コストも高くつく。
臨床用AI評価のための症例特異的な臨床用ルーブリック法を提案し, 臨床用ルーブリックが臨床用ルーブリックとほぼ一致するかどうかを検討した。
材料と方法。
20人の臨床医が、プライマリケア、精神医学、腫瘍学、行動保健に関する823の症例(実世界736件、総合的87件)のために1,646件のルーブリックを著した。
各ルーブリックは, LLMをベースとしたスコアリングエージェントが, 臨床医が好むアウトプットが, 拒否されたものよりも高い点を連続的に評価することを確認することによって検証された。
EHRを組み込んだ臨床用AIエージェントの7つのバージョンを全症例で評価した。
結果。
臨床著者による潤滑剤は、高いスコア安定性(中間値の0.00%)を持つ高品質と低品質の出力(中間値のギャップ:82.9%)を効果的に判別した。
メディアスコアは84%から95%に改善した。
後の実験では、臨床医とLLMのランキング合意(タウ:0.42-0.46)は、天井圧縮とLCMのルーリック改善の両方に起因するクリニカル・クリニック合意(タウ:0.38-0.43)に一致または超えた。
議論。
この収束は、臨床医が認可したものと共にLSMルーブリックを組み込むのをサポートする。
約1000倍のコストで、LSMルーブリックは極めて高い評価範囲を達成し、一方、臨床著者は専門家の判断において評価を継続する。
シーリング圧縮は将来のラター間合意研究の方法論的課題である。
結論。
ケース固有のルーリックは、専門家の判断を維持しながら3桁のコストで自動化を可能にする、臨床AI評価のためのパスを提供する。
臨床が認可されたルーリックは、LCMルーリックが検証されるベースラインを確立する。
関連論文リスト
- A Decade-Scale Benchmark Evaluating LLMs' Clinical Practice Guidelines Detection and Adherence in Multi-turn Conversations [60.2076951536797]
大規模言語モデル(LLM)は、医療シナリオにますます多くデプロイされている。
LLMが会話中に臨床ガイドラインを特定・遵守できるのかは不明確である。
CPGBenchは、LSMの臨床ガイドラインの検出と付着能力をベンチマークする自動フレームワークである。
論文 参考訳(メタデータ) (2026-03-26T09:00:55Z) - LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。
本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。
LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文 参考訳(メタデータ) (2026-02-18T03:59:46Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - WER is Unaware: Assessing How ASR Errors Distort Clinical Understanding in Patient Facing Dialogue [3.468314243424983]
ASR(Automatic Speech Recognition)は、臨床対話においてますます普及している。
標準評価は依然としてエラーエラー率(WER)に大きく依存している。
本稿では、WERや他の一般的な指標が転写誤りの臨床的影響と相関するかどうかを基準として検討する。
論文 参考訳(メタデータ) (2025-11-20T16:59:20Z) - Patient-Centered Summarization Framework for AI Clinical Summarization: A Mixed-Methods Design [23.21070690395588]
患者中心サマリ(PCS)における人工知能(AI)臨床要約タスクの新しい標準を提案する。
本研究の目的は,患者価値を捉え,臨床的有用性を確保するためのPCS作成フレームワークを開発することである。
5つのオープンソース LLM がゼロショットプロンプトと少数ショットプロンプトを使用して72のコンサルテーションの要約を生成する。
論文 参考訳(メタデータ) (2025-10-31T15:08:18Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。