論文の概要: Clinician-in-the-Loop Decision Making: Reinforcement Learning with
Near-Optimal Set-Valued Policies
- arxiv url: http://arxiv.org/abs/2007.12678v1
- Date: Fri, 24 Jul 2020 17:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 05:56:41.298825
- Title: Clinician-in-the-Loop Decision Making: Reinforcement Learning with
Near-Optimal Set-Valued Policies
- Title(参考訳): クリニック・イン・ザ・ループ意思決定: ほぼ最適設定値ポリシーによる強化学習
- Authors: Shengpu Tang, Aditya Modi, Michael W. Sjoding, Jenna Wiens
- Abstract要約: 本研究では,時間差分学習に基づくモデルフリーアルゴリズムと,行動選択のためのニアグレーディを提案する。
我々の研究は、理論上、実用上、クリニアン/人間-イン-ループ決定のための基盤を提供する。
- 参考スコア(独自算出の注目度): 16.262102702975344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard reinforcement learning (RL) aims to find an optimal policy that
identifies the best action for each state. However, in healthcare settings,
many actions may be near-equivalent with respect to the reward (e.g.,
survival). We consider an alternative objective -- learning set-valued policies
to capture near-equivalent actions that lead to similar cumulative rewards. We
propose a model-free algorithm based on temporal difference learning and a
near-greedy heuristic for action selection. We analyze the theoretical
properties of the proposed algorithm, providing optimality guarantees and
demonstrate our approach on simulated environments and a real clinical task.
Empirically, the proposed algorithm exhibits good convergence properties and
discovers meaningful near-equivalent actions. Our work provides theoretical, as
well as practical, foundations for clinician/human-in-the-loop decision making,
in which humans (e.g., clinicians, patients) can incorporate additional
knowledge (e.g., side effects, patient preference) when selecting among
near-equivalent actions.
- Abstract(参考訳): 標準強化学習(RL)は、各州に最適な行動を特定する最適な政策を見つけることを目的としている。
しかし、医療の分野では、多くの行動は報酬(例えば生存)についてほぼ同値である。
私たちは、同様の累積報酬につながるほぼ同値なアクションを捉えるために、セット価値ポリシーを学ぶという別の目的を考えています。
本稿では,時間差学習に基づくモデルフリーアルゴリズムと,行動選択のための近欲ヒューリスティックを提案する。
提案アルゴリズムの理論的特性を分析し,最適性保証を提供し,シミュレーション環境と実際の臨床課題に対するアプローチを実証する。
実験的に,提案アルゴリズムは優れた収束特性を示し,有意義なほぼ等価な作用を発見する。
本研究は, 臨床医(臨床医, 患者)が, ほぼ等価な行動を選択する際に, 付加的な知識(副作用, 患者嗜好など)を組み込むことのできる, 臨床医と人間によるループ内意思決定の基礎を提供する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Policy Learning with Distributional Welfare [1.0742675209112622]
治療選択に関する文献の多くは、条件平均治療効果(ATE)に基づく実用的福祉を考慮したものである。
本稿では,個別処理効果(QoTE)の条件量子化に基づく処理を最適に割り当てる政策を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:51:30Z) - Stage-Aware Learning for Dynamic Treatments [3.6923632650826486]
動的治療体制のための新しい個別化学習法を提案する。
観測軌道が最適処理と完全に一致しなければならないという制約を緩和することにより,本手法はIPWE法における試料効率と安定性を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-30T06:35:31Z) - Optimal and Fair Encouragement Policy Evaluation and Learning [11.712023983596914]
本研究では, 因果同定, 統計的分散推定, および最適処理規則のロバスト推定について検討した。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
論文 参考訳(メタデータ) (2023-09-12T20:45:30Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Quasi-optimal Reinforcement Learning with Continuous Actions [8.17049210746654]
そこで我々は,非政治環境において容易に最適化できる,新しいEmphquasi-Optimal Learningアルゴリズムを開発した。
本アルゴリズムを網羅的なシミュレーション実験により評価し,オハイオ1型糖尿病データセットへの線量提案実例を適用した。
論文 参考訳(メタデータ) (2023-01-21T11:30:13Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。