論文の概要: Scalably Enhancing the Clinical Validity of a Task Benchmark with Physician Oversight
- arxiv url: http://arxiv.org/abs/2512.19691v1
- Date: Mon, 22 Dec 2025 18:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.898393
- Title: Scalably Enhancing the Clinical Validity of a Task Benchmark with Physician Oversight
- Title(参考訳): 医学的監視によるタスクベンチマークの臨床妥当性のスケーラブル化
- Authors: Junze Ye, Daniel Tawfik, Alex J. Goodell, Nikhil V. Kotha, Mark K. Buyyounouski, Mohsen Bayati,
- Abstract要約: 本研究では,複雑なタスクの監視ベンチマークを,定期的に再評価すべき 'in-progress living document'' として提案する。
我々は,先進的なエージェント検証を利用して,MedCalc-Benchを監査し,レラベル化する,系統的,内科的・内科的パイプラインを提案する。
検査の結果,抽出ミス,電卓論理ミスマッチ,臨床曖昧さなどにより,原著ラベルの顕著な部分が医学的根拠の真相から逸脱していることが判明した。
- 参考スコア(独自算出の注目度): 5.202988483354374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating the calculation of clinical risk scores offers a significant opportunity to reduce physician administrative burden and enhance patient care. The current standard for evaluating this capability is MedCalc-Bench, a large-scale dataset constructed using LLM-based feature extraction and rule-based aggregation. However, treating such model-generated benchmarks as static oracles risks enshrining historical model errors as evaluation gold standards, a problem dangerously amplified when these datasets serve as reward signals for Reinforcement Learning (RL). In this work, we propose viewing benchmarks for complex tasks such as clinical score computation as ''in-progress living documents'' that should be periodically re-evaluated as the processes for creating them improve. We introduce a systematic, physician-in-the-loop pipeline that leverages advanced agentic verifiers to audit and relabel MedCalc-Bench, utilizing automated triage to reserve scarce clinician attention for the most contentious instances. Our audit reveals that a notable fraction of original labels diverge from medical ground truth due to extraction errors, calculator logic mismatches, and clinical ambiguity. To study whether this label noise meaningfully impacts downstream RL training, we fine-tune a Qwen3-8B model via Group Relative Policy Optimization (GRPO) and demonstrate that training on corrected labels yields an 8.7% absolute improvement in accuracy over the original baseline -- validating that label noise materially affects model evaluation. These findings underscore that in safety-critical domains, rigorous benchmark maintenance is a prerequisite for genuine model alignment.
- Abstract(参考訳): 臨床リスクスコアの計算を自動化することは、医師の負担を減らし、患者のケアを強化する重要な機会となる。
この機能を評価するための現在の標準はMedCalc-Benchである。
しかし、このようなモデル生成ベンチマークを静的オラクルとして扱うと、過去のモデルエラーを金の基準として評価するリスクがあり、これらのデータセットが強化学習(RL)の報奨信号として機能すると、危険なほど増幅される。
そこで本研究では,臨床スコア計算などの複雑なタスクに対する評価基準を「in-progress living document」として,定期的に再評価する手法を提案する。
我々は,先進的なエージェント検証を利用して,MedCalc-Benchを検査し,評価し,自動トリアージを活用して,最も議論の的となる症例に注意を喚起する,系統的・内科的パイプラインを導入する。
検査の結果,抽出ミス,電卓論理ミスマッチ,臨床曖昧さなどにより,原著ラベルの顕著な部分が医学的根拠の真相から逸脱していることが判明した。
このラベルノイズが下流RLトレーニングに有意な影響を及ぼすかどうかを調べるため、グループ相対政策最適化(GRPO)を介してQwen3-8Bモデルを微調整し、補正されたラベルのトレーニングが元のベースラインよりも8.7%の精度の向上をもたらすことを示す。
これらの結果は、安全クリティカルな領域では、厳密なベンチマークメンテナンスが真のモデルアライメントの前提条件であることを示している。
関連論文リスト
- Conformal Lesion Segmentation for 3D Medical Images [82.92159832699583]
本稿では,データ駆動しきい値の校正をコンフォーマル化することで,テスト時間FNRが目標許容値以下であることを保証する,リスク制約付きフレームワークを提案する。
5つのバックボーンモデルにまたがる6つの3D-LSデータセット上でのCLSの統計的健全性と予測性能を検証し,臨床実践におけるリスク認識セグメンテーションの展開に関する実用的な知見を得た。
論文 参考訳(メタデータ) (2025-10-19T08:21:00Z) - Cross-Representation Benchmarking in Time-Series Electronic Health Records for Clinical Outcome Prediction [44.23284500920266]
このベンチマークは、2つの異なる臨床環境におけるデータキュレーションと評価を標準化する。
実験によると、イベントストリームモデルは、常に最強のパフォーマンスを提供する。
特徴選択戦略は臨床環境に適応する必要がある。
論文 参考訳(メタデータ) (2025-10-10T09:03:47Z) - From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文 参考訳(メタデータ) (2025-09-20T09:10:26Z) - Aligning Evaluation with Clinical Priorities: Calibration, Label Shift, and Error Costs [3.299877799532224]
校正しきい値分類器を選択するための基本的かつ実用的な評価フレームワークを提案する。
臨床的に関連のあるクラスバランスの範囲でコスト重み付け性能を平均化するクロスエントロピー(log score)の調整版を導出する。
その結果得られた評価は、簡単に適用でき、臨床展開条件に敏感であり、キャリブレーションされたモデルと実世界の変動に頑健なモデルの両方を優先順位付けするよう設計されている。
論文 参考訳(メタデータ) (2025-06-17T14:01:39Z) - Process-Supervised Reward Models for Verifying Clinical Note Generation: A Scalable Approach Guided by Domain Expertise [14.052630186550628]
プロセス教師付き報酬モデル(PRM)は、数学やコーディングといった分野において、大きな言語モデル(LLM)の出力に対してステップバイステップの検証を提供する。
LLM作成臨床ノートに段階的な報酬信号を提供するために,PRMを訓練するための新しい枠組みを導入する。
論文 参考訳(メタデータ) (2024-12-17T06:24:34Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。