論文の概要: Clinician-in-the-Loop Decision Making: Reinforcement Learning with
Near-Optimal Set-Valued Policies
- arxiv url: http://arxiv.org/abs/2007.12678v1
- Date: Fri, 24 Jul 2020 17:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 05:56:41.298825
- Title: Clinician-in-the-Loop Decision Making: Reinforcement Learning with
Near-Optimal Set-Valued Policies
- Title(参考訳): クリニック・イン・ザ・ループ意思決定: ほぼ最適設定値ポリシーによる強化学習
- Authors: Shengpu Tang, Aditya Modi, Michael W. Sjoding, Jenna Wiens
- Abstract要約: 本研究では,時間差分学習に基づくモデルフリーアルゴリズムと,行動選択のためのニアグレーディを提案する。
我々の研究は、理論上、実用上、クリニアン/人間-イン-ループ決定のための基盤を提供する。
- 参考スコア(独自算出の注目度): 16.262102702975344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard reinforcement learning (RL) aims to find an optimal policy that
identifies the best action for each state. However, in healthcare settings,
many actions may be near-equivalent with respect to the reward (e.g.,
survival). We consider an alternative objective -- learning set-valued policies
to capture near-equivalent actions that lead to similar cumulative rewards. We
propose a model-free algorithm based on temporal difference learning and a
near-greedy heuristic for action selection. We analyze the theoretical
properties of the proposed algorithm, providing optimality guarantees and
demonstrate our approach on simulated environments and a real clinical task.
Empirically, the proposed algorithm exhibits good convergence properties and
discovers meaningful near-equivalent actions. Our work provides theoretical, as
well as practical, foundations for clinician/human-in-the-loop decision making,
in which humans (e.g., clinicians, patients) can incorporate additional
knowledge (e.g., side effects, patient preference) when selecting among
near-equivalent actions.
- Abstract(参考訳): 標準強化学習(RL)は、各州に最適な行動を特定する最適な政策を見つけることを目的としている。
しかし、医療の分野では、多くの行動は報酬(例えば生存)についてほぼ同値である。
私たちは、同様の累積報酬につながるほぼ同値なアクションを捉えるために、セット価値ポリシーを学ぶという別の目的を考えています。
本稿では,時間差学習に基づくモデルフリーアルゴリズムと,行動選択のための近欲ヒューリスティックを提案する。
提案アルゴリズムの理論的特性を分析し,最適性保証を提供し,シミュレーション環境と実際の臨床課題に対するアプローチを実証する。
実験的に,提案アルゴリズムは優れた収束特性を示し,有意義なほぼ等価な作用を発見する。
本研究は, 臨床医(臨床医, 患者)が, ほぼ等価な行動を選択する際に, 付加的な知識(副作用, 患者嗜好など)を組み込むことのできる, 臨床医と人間によるループ内意思決定の基礎を提供する。
関連論文リスト
- Policy Learning with Distributional Welfare [1.2691047660244337]
治療選択に関する文献の多くは、条件平均治療効果(ATE)に基づく実用的福祉を考慮したものである。
本稿では,個別処理効果(QoTE)の条件量子化に基づく処理を最適に割り当てる政策を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:51:30Z) - Stage-Aware Learning for Dynamic Treatments [4.033641609534417]
動的治療体制のための新しい個別化学習法を提案する。
我々は、観察された治療軌跡と、決定段階にわたって最適な状態から得られるものとの整合性に重点を置いている。
観測軌道が最適処理と完全に一致しなければならないという制約を緩和することにより,本手法は逆確率重み付け法のサンプル効率と安定性を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-30T06:35:31Z) - Optimal and Fair Encouragement Policy Evaluation and Learning [11.712023983596914]
本研究では, 因果同定, 統計的分散推定, および最適処理規則のロバスト推定について検討した。
一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。
論文 参考訳(メタデータ) (2023-09-12T20:45:30Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning
Approach to Critical Care [68.8204255655161]
我々は、より信頼性の高いクリティカルケアポリシーを得ることができる深いQ-ラーニングアプローチを導入する。
まず、利用可能なすべての報酬に基づいてアクションセットを抽出し、次に、スパース主報酬に基づいて最終モデルを訓練し、制限されたアクションセットで達成する。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Quasi-optimal Reinforcement Learning with Continuous Actions [8.17049210746654]
そこで我々は,非政治環境において容易に最適化できる,新しいEmphquasi-Optimal Learningアルゴリズムを開発した。
本アルゴリズムを網羅的なシミュレーション実験により評価し,オハイオ1型糖尿病データセットへの線量提案実例を適用した。
論文 参考訳(メタデータ) (2023-01-21T11:30:13Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - CAPITAL: Optimal Subgroup Identification via Constrained Policy Tree
Search [10.961093227672398]
臨床的に有意義なサブグループ学習アプローチでは、より良い治療の恩恵を受けることができる患者の最大数を特定する必要がある。
選択した患者数を最大化する最適サブグループ選択規則(SSR)を提案する。
解析可能な決定木クラスの中で最適なSSRを求めるために,ConstrAined PolIcy Tree seArch aLgorithmを提案する。
論文 参考訳(メタデータ) (2021-10-11T22:41:07Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。