論文の概要: Batch Policy Learning in Average Reward Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2007.11771v3
- Date: Sat, 17 Sep 2022 17:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 13:15:06.732991
- Title: Batch Policy Learning in Average Reward Markov Decision Processes
- Title(参考訳): 平均報酬マルコフ決定過程におけるバッチ政策学習
- Authors: Peng Liao, Zhengling Qi, Runzhe Wan, Predrag Klasnja, Susan Murphy
- Abstract要約: モバイル健康アプリケーションに動機づけられた我々は、長期的な平均報酬を最大化する政策を学ぶことに集中する。
パラメータ化されたポリシークラスで最適ポリシーを計算する最適化アルゴリズムを開発した。
推定ポリシのパフォーマンスは、ポリシークラスにおける最適平均報酬と推定ポリシの平均報酬との差によって測定される。
- 参考スコア(独自算出の注目度): 3.9023554886892438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the batch (off-line) policy learning problem in the infinite
horizon Markov Decision Process. Motivated by mobile health applications, we
focus on learning a policy that maximizes the long-term average reward. We
propose a doubly robust estimator for the average reward and show that it
achieves semiparametric efficiency. Further we develop an optimization
algorithm to compute the optimal policy in a parameterized stochastic policy
class. The performance of the estimated policy is measured by the difference
between the optimal average reward in the policy class and the average reward
of the estimated policy and we establish a finite-sample regret guarantee. The
performance of the method is illustrated by simulation studies and an analysis
of a mobile health study promoting physical activity.
- Abstract(参考訳): 無限水平マルコフ決定過程における政策学習のバッチ(オフライン)問題を考察する。
モバイル健康アプリケーションに動機づけられた我々は、長期的な平均報酬を最大化する政策を学ぶことに集中する。
平均報酬に対する2倍ロバストな推定器を提案し,半パラメトリックな効率性を示す。
さらに,パラメータ化された確率的ポリシークラスで最適ポリシーを計算する最適化アルゴリズムを開発した。
評価された政策のパフォーマンスは、政策クラスにおける最適平均報酬と推定された政策の平均報酬の差によって測定され、有限サンプルの後悔保証を確立する。
本手法の性能は,身体活動を促進する移動型健康研究のシミュレーション研究と分析によって示される。
関連論文リスト
- Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Off-Policy Average Reward Actor-Critic with Deterministic Policy Search [3.551625533648956]
我々は、平均報酬性能基準に対して、オン・ポリティとオフ・ポリティズム的政策勾配定理の両方を提示する。
また,ARO-DDPG(Average Reward Off-Policy Deep Deterministic Policy Gradient)アルゴリズムを提案する。
提案したARO-DDPGの平均報酬性能を比較し,MuJoCo環境上での最先端の平均報酬評価アルゴリズムと比較した。
論文 参考訳(メタデータ) (2023-05-20T17:13:06Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。