論文の概要: Learning Preference-Based Objectives from Clinical Narratives for Sequential Treatment Decision-Making
- arxiv url: http://arxiv.org/abs/2604.10783v1
- Date: Sun, 12 Apr 2026 19:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.213531
- Title: Learning Preference-Based Objectives from Clinical Narratives for Sequential Treatment Decision-Making
- Title(参考訳): シークエンシャル・トリート・ディクエンス・メイキングのための臨床物語からの学習選好に基づく目的
- Authors: Daniel J. Tan, Kay Choong See, Mengling Feng,
- Abstract要約: 軌道レベルの選好に対するスケーラブルな監視として扱うことにより,報奨関数を排出サマリーから直接学習する枠組みを提案する。
そこで我々は,TQS(trajectory quality score)を導出し,患者軌跡に対する一対の嗜好を構築し,構造化された嗜好に基づく報奨学習を可能にした。
- 参考スコア(独自算出の注目度): 8.302720355559359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing reward functions remains a central challenge in reinforcement learning (RL) for healthcare, where outcomes are sparse, delayed, and difficult to specify. While structured data capture physiological states, they often fail to reflect the overall quality of a patient's clinical trajectory, including recovery dynamics, treatment burden, and stability. Clinical narratives, in contrast, summarize longitudinal reasoning and implicitly encode evaluations of treatment effectiveness. We propose Clinical Narrative-informed Preference Rewards (CN-PR), a framework for learning reward functions directly from discharge summaries by treating them as scalable supervision for trajectory-level preferences. Using a large language model, we derive trajectory quality scores (TQS) and construct pairwise preferences over patient trajectories, enabling reward learning via a structured preference-based objective. To account for variability in narrative informativeness, we incorporate a confidence signal that weights supervision based on its relevance to the decision-making task. The learned reward aligns strongly with trajectory quality (Spearman rho = 0.63) and enables policies that are consistently associated with improved recovery-related outcomes, including increased organ support-free days and faster shock resolution, while maintaining comparable performance on mortality. These effects persist under external validation. Our results demonstrate that narrative-derived supervision provides a scalable and expressive alternative to handcrafted or outcome-based reward design for dynamic treatment regimes.
- Abstract(参考訳): 報酬関数の設計は医療における強化学習(RL)において依然として中心的な課題であり、結果が不十分で、遅れており、特定が難しい。
構造化されたデータは生理的状態を取得するが、回復動態、治療負担、安定性など、患者の臨床軌道の全体的な品質を反映しないことが多い。
対照的に、臨床物語は、縦断的推論を要約し、治療効果の評価を暗黙的にエンコードする。
CN-PR(CN-PR)は,軌道レベルの嗜好をスケーラブルな監視対象として扱うことで,報酬関数を排出サマリーから直接学習するフレームワークである。
大規模言語モデルを用いて, 軌道品質スコア(TQS)を導出し, 患者軌跡に対する一対の嗜好を構築することにより, 構造化された嗜好に基づく報奨学習を可能にする。
ナラティブ・インフォメーションの多様性を考慮し,意思決定タスクとの関連性に基づいて監督を重み付けする信頼シグナルを組み込んだ。
学習された報酬は、軌道品質(Spearman rho = 0.63)と強く一致し、臓器サポートなしの日数の増加やショック解決の迅速化など、回復関連の改善に一貫して関連する政策を可能にし、死亡時の同等のパフォーマンスを維持している。
これらの効果は外部の検証の下で持続する。
この結果から,物語に基づく指導は,動的治療体制のための手技や成果に基づく報酬設計に代わる,スケーラブルで表現力豊かな代替手段を提供することが示された。
関連論文リスト
- Beyond the ATE: Interpretable Modelling of Treatment Effects over Dose and Time [46.2482873419289]
本研究では, 治療効果トラジェクトリを線量および時間とともに滑らかな表面としてモデル化する枠組みを提案する。
本研究は, 臨床的に有意な特性の特定から, 軌道形状の推定を分離する。
本手法は, 処理力学の精度, 解釈可能, 編集可能なモデルを生成する。
論文 参考訳(メタデータ) (2025-07-09T20:33:33Z) - Censoring-Aware Tree-Based Reinforcement Learning for Estimating Dynamic Treatment Regimes with Censored Outcomes [4.877686100899469]
Censoring-Aware Tree-Based Reinforcement Learning (CA-TRL)は、検閲データに関連する複雑さに対処する新しいフレームワークである。
本稿では,SANADエピレプシー・データセットを用いた広範囲なシミュレーションと実世界の応用を通して,その効果を実証する。
論文 参考訳(メタデータ) (2025-03-09T16:53:09Z) - Pruning the Path to Optimal Care: Identifying Systematically Suboptimal Medical Decision-Making with Inverse Reinforcement Learning [14.688842697886484]
本稿では, 同僚の行動に基づいて, 最適な臨床行為を識別する逆強化学習の新たな応用法を提案する。
このアプローチはIRLの2つの段階を中心とし、コンセンサスから大きく逸脱する行動を示す軌跡をプーンする中間段階を持つ。
論文 参考訳(メタデータ) (2024-11-07T23:16:59Z) - A Causal Framework for Precision Rehabilitation [1.3060095849496556]
精密リハビリテーションは、長期的機能的成果を改善するために個人のリハビリを最適化するためのエビデンスベースのアプローチを約束する。
人工知能によって駆動されるものを含む新しい技術は、リハビリテーション中のさまざまな機能領域を定量化する能力を急速に拡大しています。
これは、ビッグデータの時代へのリハビリを後押しし、精度回復の強力な原動力となるだろうが、我々の分野には、これらのデータを活用し、この約束を果たすための一貫性のある枠組みが欠如している。
論文 参考訳(メタデータ) (2024-11-06T13:51:06Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Optimal discharge of patients from intensive care via a data-driven
policy learning framework [58.720142291102135]
退院課題は、退院期間の短縮と退院決定後の退院や死亡のリスクとの不確実なトレードオフに対処することが重要である。
本研究は、このトレードオフを捉えるためのエンドツーエンドの汎用フレームワークを導入し、最適放電タイミング決定を推奨する。
データ駆動型アプローチは、患者の生理的状態を捉えた同種で離散的な状態空間表現を導出するために用いられる。
論文 参考訳(メタデータ) (2021-12-17T04:39:33Z) - Disentangled Counterfactual Recurrent Networks for Treatment Effect
Inference over Time [71.30985926640659]
本稿では,DCRN(Disentangled Counterfactual Recurrent Network)を提案する。
時間とともに治療効果の因果構造に完全にインスパイアされたアーキテクチャでは、予測精度と疾患理解が向上する。
実データとシミュレーションデータの両方において,DCRNが処理応答予測の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-07T16:40:28Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。