論文の概要: Learning from Disagreement: Clinician Overrides as Implicit Preference Signals for Clinical AI in Value-Based Care
- arxiv url: http://arxiv.org/abs/2604.28010v1
- Date: Thu, 30 Apr 2026 15:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.165843
- Title: Learning from Disagreement: Clinician Overrides as Implicit Preference Signals for Clinical AI in Value-Based Care
- Title(参考訳): 診断から学ぶ:価値に基づく医療における臨床AIのための暗黙の選好信号としての臨床医オーバーライド
- Authors: Prabhjot Singh, Abhishek Gupta, Chris Betz, Abe Flansburg, Brett Ives, Sudeep Lama, Jung Hoon Son,
- Abstract要約: 3つのコントリビューションで標準選好学習を拡張したフォーマルなフレームワークを提案する。
結果に基づく支払い契約に基づく慢性的な疾患管理は、一意に有利な特性を持つデータをオーバーライドすると主張している。
- 参考スコア(独自算出の注目度): 4.772536418776007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We reframe clinician overrides of clinical AI recommendations as implicit preference data - the same signal structure exploited by reinforcement learning from human feedback (RLHF), but richer: the annotator is a domain expert, the alternatives carry real consequences, and downstream outcomes are observable. We present a formal framework extending standard preference learning with three contributions: a five-category override taxonomy mapping override types to distinct model update targets; a preference formulation conditioned on patient state s, organizational context c, and clinician capability kappa, where kappa decomposes into execution capability kappa-exec and alignment capability kappa-align; and a dual learning architecture that jointly trains a reward model and a capability model via alternating optimization, preventing a failure mode we term suppression bias-the systematic suppression of correct-but-difficult recommendations when clinician capability falls below the execution threshold. We argue that chronic disease management under outcome-based payment contracts produces override data with uniquely favorable properties-longitudinal density, concentrated decision space, outcome labels, and natural capability variation-and that training environments combining longitudinal outcome measurement with aligned financial incentives are a necessary condition for learning a reward model aligned with patient trajectory rather than with encounter economics. This framework emerged from operational work to improve clinician capability in a live value-based care deployment.
- Abstract(参考訳): 人間からのフィードバック(RLHF)からの強化学習によって活用されるのと同じシグナル構造ですが、アノテーションはドメインの専門家であり、代替手段は本当の結果を持ち、下流の結果は観測可能であるのです。
患者状態s,組織コンテキストc,臨床能力Kappaに規定された嗜好の定式化,Kappaが実行能力Kappa-execとアライメント能力Kappa-alignに分解する,Kappa-align,および,最適化の交互化による報酬モデルと能力モデルの連立訓練を行うデュアルラーニングアーキテクチャ,障害モードの防止,臨床能力が実行しきい値以下に低下した場合の正当な推奨の体系的抑制というバイアスを抑える。
結果に基づく支払い契約下での慢性疾患管理は, 長期的密度, 集中的決定空間, 成果ラベル, 自然能力変動など, 独特な特性を持つデータを生成するとともに, 長期的成果測定と財務インセンティブの整合性を考慮したトレーニング環境が, 経済に遭遇するのではなく, 患者軌道に整合した報酬モデルを学ぶための必要条件である,と論じる。
このフレームワークは、実価値ベースのケアデプロイメントにおける臨床能力を改善するための運用作業から生まれた。
関連論文リスト
- Learning Preference-Based Objectives from Clinical Narratives for Sequential Treatment Decision-Making [8.302720355559359]
軌道レベルの選好に対するスケーラブルな監視として扱うことにより,報奨関数を排出サマリーから直接学習する枠組みを提案する。
そこで我々は,TQS(trajectory quality score)を導出し,患者軌跡に対する一対の嗜好を構築し,構造化された嗜好に基づく報奨学習を可能にした。
論文 参考訳(メタデータ) (2026-04-12T19:18:02Z) - The Gait Signature of Frailty: Transfer Learning based Deep Gait Models for Scalable Frailty Assessment [22.972032402190873]
臨床的に現実的な設定で収集したシルエットベースの脆弱な歩行データセットを公開して紹介する。
我々は,限られたデータ条件下で,事前学習した歩行認識モデルが脆弱な分類にどのように適応できるかを評価する。
論文 参考訳(メタデータ) (2026-03-25T15:44:37Z) - Beyond Accuracy: A Decision-Theoretic Framework for Allocation-Aware Healthcare AI [0.0]
人工知能(AI)システムは、医療において専門家レベルの予測精度をますます達成している。
しかし、モデルパフォーマンスの改善は、患者の結果に対して対応する利益をもたらすことができないことが多い。
本稿では、この割当ギャップを解消し、結合資源制約の下での割当問題として、医療提供をモデル化することで決定論的説明を提供する。
論文 参考訳(メタデータ) (2026-01-06T20:42:10Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Policy Optimization for Personalized Interventions in Behavioral Health [8.10897203067601]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。
患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。
患者システムの状態空間を個別のレベルに分解するDecompPIをダブする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T21:42:03Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。