論文の概要: Model Selection for Offline Reinforcement Learning: Practical
Considerations for Healthcare Settings
- arxiv url: http://arxiv.org/abs/2107.11003v1
- Date: Fri, 23 Jul 2021 02:41:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 13:50:52.840782
- Title: Model Selection for Offline Reinforcement Learning: Practical
Considerations for Healthcare Settings
- Title(参考訳): オフライン強化学習のためのモデル選択:医療設定の実践的考察
- Authors: Shengpu Tang, Jenna Wiens
- Abstract要約: 強化学習は治療方針を学習し、医療における意思決定を支援するために用いられる。
モデル選択のための標準的な検証パイプラインは、実際の環境で学習したポリシーを実行する必要がある。
我々の研究は、オフラインのRLモデル選択のための実用的なガイドとして機能し、実世界のデータセットを使用してRL実践者がポリシーを選択するのに役立つ。
- 参考スコア(独自算出の注目度): 13.376364233897528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) can be used to learn treatment policies and aid
decision making in healthcare. However, given the need for generalization over
complex state/action spaces, the incorporation of function approximators (e.g.,
deep neural networks) requires model selection to reduce overfitting and
improve policy performance at deployment. Yet a standard validation pipeline
for model selection requires running a learned policy in the actual
environment, which is often infeasible in a healthcare setting. In this work,
we investigate a model selection pipeline for offline RL that relies on
off-policy evaluation (OPE) as a proxy for validation performance. We present
an in-depth analysis of popular OPE methods, highlighting the additional
hyperparameters and computational requirements (fitting/inference of auxiliary
models) when used to rank a set of candidate policies. We compare the utility
of different OPE methods as part of the model selection pipeline in the context
of learning to treat patients with sepsis. Among all the OPE methods we
considered, fitted Q evaluation (FQE) consistently leads to the best validation
ranking, but at a high computational cost. To balance this trade-off between
accuracy of ranking and computational efficiency, we propose a simple two-stage
approach to accelerate model selection by avoiding potentially unnecessary
computation. Our work serves as a practical guide for offline RL model
selection and can help RL practitioners select policies using real-world
datasets. To facilitate reproducibility and future extensions, the code
accompanying this paper is available online at
https://github.com/MLD3/OfflineRL_ModelSelection.
- Abstract(参考訳): 強化学習(RL)は治療方針を学習し、医療における意思決定を支援するために用いられる。
しかし、複雑な状態/動作空間上の一般化の必要性を考えると、関数近似器(例えばディープニューラルネットワーク)の組み込みは、過剰フィッティングを減らし、配置時のポリシーパフォーマンスを改善するためにモデル選択を必要とする。
しかし、モデル選択のための標準的な検証パイプラインでは、実際の環境で学習したポリシーを実行する必要があります。
本研究では,検証性能の指標としてオフポリシー評価(ope)に依存するオフラインrlのモデル選択パイプラインについて検討する。
本稿では,一般的な ope 手法の詳細な分析を行い,候補ポリシーのランク付けに使用する場合のハイパーパラメータと計算要件(補助モデルのフィッティング/インリファレンス)について述べる。
敗血症患者に対する学習において, モデル選択パイプラインの一部として, 異なる OPE 手法の有用性を比較検討した。
検討したすべてのOPE手法の中で、適合Q評価(FQE)は、高い計算コストで、常に最高の検証ランキングに導かれる。
ランキングの精度と計算効率のトレードオフを両立させるため,不必要な計算を回避し,モデル選択を高速化する簡易な二段階法を提案する。
我々の研究は、オフラインのRLモデル選択のための実用的なガイドとして機能し、実世界のデータセットを使用してRL実践者がポリシーを選択するのに役立つ。
再現性と将来の拡張を容易にするため、この論文に付随するコードはhttps://github.com/MLD3/OfflineRL_ModelSelection.comで公開されている。
関連論文リスト
- Policy Trees for Prediction: Interpretable and Adaptive Model Selection for Machine Learning [5.877778007271621]
予測モデルやアンサンブルを適応的に選択するための解釈可能なポリシーを導出するツリーベースアプローチであるOP2T(Optimal Predictive-Policy Trees)を導入する。
提案手法は,モデル出力へのアクセスを前提としてのみ,解釈可能かつ適応的なモデル選択と拒否を可能にする。
構造化データと非構造化データの両方を用いた回帰および分類タスクを含む実世界のデータセットに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-30T21:21:33Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Deep Offline Reinforcement Learning for Real-world Treatment
Optimization Applications [3.770564448216192]
オフラインRLトレーニングにおける動作不均衡に対処するための,実践的かつ理論的に基礎的な遷移サンプリング手法を提案する。
糖尿病と敗血症治療最適化のための2つの現実的課題について広範な実験を行った。
本提案手法は, 様々な原則および臨床関連指標を用いて, 期待される健康影響を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2023-02-15T09:30:57Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Data-Efficient Pipeline for Offline Reinforcement Learning with Limited
Data [28.846826115837825]
オフライン強化学習は、過去のデータを活用することで、将来のパフォーマンスを改善するために使用できる。
最適なポリシを自動トレーニングし、比較し、選択し、デプロイするためのタスクとメソッドに依存しないパイプラインを導入します。
データセットが小さい場合には、大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2022-10-16T21:24:53Z) - Testing Stationarity and Change Point Detection in Reinforcement
Learning [10.343546104340962]
予め収集した履歴データに基づいて最適なQ-関数の非定常性をテストする一貫した手順を開発する。
さらに、非定常環境における政策最適化のための既存の最先端RL手法と自然に結合可能な逐次変化点検出法を開発した。
論文 参考訳(メタデータ) (2022-03-03T13:30:28Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。