論文の概要: CLR-voyance: Reinforcing Open-Ended Reasoning for Inpatient Clinical Decision Support with Outcome-Aware Rubrics
- arxiv url: http://arxiv.org/abs/2605.09584v1
- Date: Sun, 10 May 2026 14:51:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.322225
- Title: CLR-voyance: Reinforcing Open-Ended Reasoning for Inpatient Clinical Decision Support with Outcome-Aware Rubrics
- Title(参考訳): CLR-voyance:アウトカム・アウェア・ルーブリックを用いた臨床診断支援のためのオープンエンド推論の強化
- Authors: Aishik Nagar, Arun-Kumar Kaliya-Perumal, Yu-Hsuan Han, Andrew Sheng-Han Huang, Kristen Kee, Yushi Cao, Yiming Chen, Hongchao Jiang,
- Abstract要約: 我々は、部分的に観察可能なマルコフ決定プロセス(POMDP)として、入院患者の推論を再構築するフレームワークであるCLR-voyanceを紹介する。
POMDPは、成功している患者を、ポリシーで見える過去とオラクルのみの未来に分割する。
CLR-voyance-8B は GPT-5 (77.83%) や MedGemma-27B (66.66%) といった最前線の医療推論モデルに先立って CLR-POMDP で84.91% を達成する。
- 参考スコア(独自算出の注目度): 8.371846057855327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inpatient clinical reasoning is a sequential decision under partial observability: the clinician sees the admission so far and must choose the next action whose downstream consequences are not yet visible. Existing clinical-LLM evaluations and RL rewards signals collapse this into closed-form retrieval, clinical journey leakage, or unanchored LLM-as-judge scoring. We introduce CLR-voyance, a framework that reformulates inpatient reasoning as a Partially Observable Markov Decision Process (POMDP) and supervises it with rewards that are simultaneously outcome-grounded and clinician-validated. We instantiate the formulation as CLR-POMDP, which partitions successful patient journeys into a policy-visible past and an oracle-only future. Using the past information, an oracle LLM generates a case-specific query-answer pair, and the first adaptive rubric for clinical reasoning which is verifiable in the future of the patient journey. These rubrics are used for both post-training and evaluation of models for inpatient clinical reasoning. We post-train Qwen3-8B and MedGemma-4B with GRPO followed by model merging, yielding state-of-the-art inpatient clinical reasoning while retaining generalist capabilities. CLR-voyance-8B achieves 84.91% on CLR-POMDP, ahead of frontier medical reasoning models like GPT-5 (77.83%) and MedGemma-27B (66.66%) and has comparable or better performance on existing medical benchmarks. To ensure a clinically meaningful setting, we conduct a large-scale clinician alignment study, where physicians curate per-case rubrics, grade candidate responses, and provide blinded pairwise preferences of model reasoning. This study provides insights on clinical LLM-as-a-judge and clinical preference-model selection, which can inform the community at large. CLR-voyance has been deployed for 6+ months at a partner public hospital, drafting thousands of reasoning-heavy inpatient notes.
- Abstract(参考訳): 入院患者の臨床推論は、部分的観察可能性の下でのシーケンシャルな決定であり、臨床医は、これまで入院を認めており、下流の結果がまだ見えていない次のアクションを選択する必要がある。
既存の臨床LLM評価とRL報酬のシグナルは、これをクローズドフォーム検索、臨床旅行リーク、または未承認のLCM-as-judgeスコアに分解する。
本稿では,患者の推論を部分的に観察可能なマルコフ決定プロセス (POMDP) として再編成し,その結果を同時に評価するCLR-voyanceについて紹介する。
我々はCLR-POMDPとして定式化をインスタンス化し、成功している患者旅行を政策可視過去とオラクルのみの未来に分割する。
過去の情報を用いて、オラクルLSMは、ケース固有のクエリ・アンサーペアを生成し、患者旅行の将来を検証可能な、臨床推論のための最初の適応ルーブリックを生成する。
これらのルーブリックは,院内臨床推論モデルの構築と評価の両立に用いられている。
術後のQwen3-8BとMedGemma-4BにGRPOを併用した。
CLR-voyance-8B は GPT-5 (77.83%) や MedGemma-27B (66.66%) といった最前線の医療推論モデルに先立って CLR-POMDP で84.91% を達成する。
臨床的に有意な設定を確保するため, 医師が症例ごとのルーリックを治療し, 適度な候補反応を判定し, モデル推論の盲目なペアワイドな嗜好を提供する, 大規模臨床アライメント研究を実施している。
本研究は,臨床 LLM-as-a-judge と臨床選好モデル選択に関する知見を提供する。
CLR-voyanceはパートナーの公立病院に6ヶ月以上展開され、何千もの理性に富んだ入院患者のメモを起草している。
関連論文リスト
- ReMedi: Reasoner for Medical Clinical Prediction [70.84466325266068]
EHRによる臨床結果予測を改善するためのフレームワークであるReMediを提案する。
ReMediは、複雑な臨床問題に対する挑戦的なサンプル再生機構を用いて有理応答対を生成する。
複数のEHR予測タスクの実験では、F1スコアで最先端のベースラインを19.9%上回った。
論文 参考訳(メタデータ) (2026-05-02T14:44:49Z) - MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。
MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。
2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文 参考訳(メタデータ) (2026-03-13T22:30:26Z) - PREBA: Surgical Duration Prediction via PCA-Weighted Retrieval-Augmented LLMs and Bayesian Averaging Aggregation [51.96735866702332]
PreBAはPCA重み付き検索とベイズ平均アグリゲーションを統合した検索拡張フレームワークである。
例えば、PreBAはパフォーマンスを大幅に改善し、MAEを最大40%削減し、ゼロショット推論でR2を-0.13から0.62に引き上げる。
論文 参考訳(メタデータ) (2026-02-27T07:19:23Z) - Closing Reasoning Gaps in Clinical Agents with Differential Reasoning Learning [16.144050164828794]
本稿では, 臨床薬品の理性差を学習し, 臨床薬品の改善を図るためのフレームワークDRLを提案する。
DRLは、有向非巡回グラフ(DAG)として推論グラフを抽出し、臨床重み付きグラフ編集距離(GED)に基づく不一致解析を行う。
推論では、エージェントプロンプトを増強し、可能性のあるロジックギャップをパッチするために、トップ$k$命令を検索します。
論文 参考訳(メタデータ) (2026-02-10T16:29:32Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Retrieval-Augmented Framework for LLM-Based Clinical Decision Support [0.19999259391104388]
本稿では,大言語モデル(LLM)を用いた臨床意思決定支援システムを提案する。
このフレームワークは自然言語処理と構造化された臨床入力を統合し、文脈に関連のあるレコメンデーションを生成する。
本稿では,表現表現のアライメントや生成戦略など,システムの技術的コンポーネントについて概説する。
論文 参考訳(メタデータ) (2025-10-01T18:45:25Z) - ER-REASON: A Benchmark Dataset for LLM-Based Clinical Reasoning in the Emergency Room [6.910389029249664]
大規模言語モデル (LLMs) は, ライセンス試験に基づく質問応答タスクにおいて, 広範囲に評価されている。
ER-Reason(ER-Reason)は、救急室におけるLSMに基づく臨床推論と意思決定を評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-05-28T22:43:44Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Assessing the impact of emergency department short stay units using
length-of-stay prediction and discrete event simulation [1.0822676139724565]
救急部門から一般内科に入院した患者に対して,入院期間を予測する意思決定支援システムの構築を目指す。
我々は探索的データ分析を行い、最高の予測性能をもたらす属性を識別するために特徴選択手法を用いる。
論文 参考訳(メタデータ) (2023-08-04T22:26:02Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。