論文の概要: Statistically Efficient Off-Policy Policy Gradients
- arxiv url: http://arxiv.org/abs/2002.04014v2
- Date: Thu, 20 Feb 2020 14:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 08:40:44.265843
- Title: Statistically Efficient Off-Policy Policy Gradients
- Title(参考訳): 統計的に効率的なオフ・ポリティポリシグラディエント
- Authors: Nathan Kallus, Masatoshi Uehara
- Abstract要約: 政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
- 参考スコア(独自算出の注目度): 80.42316902296832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient methods in reinforcement learning update policy parameters by
taking steps in the direction of an estimated gradient of policy value. In this
paper, we consider the statistically efficient estimation of policy gradients
from off-policy data, where the estimation is particularly non-trivial. We
derive the asymptotic lower bound on the feasible mean-squared error in both
Markov and non-Markov decision processes and show that existing estimators fail
to achieve it in general settings. We propose a meta-algorithm that achieves
the lower bound without any parametric assumptions and exhibits a unique 3-way
double robustness property. We discuss how to estimate nuisances that the
algorithm relies on. Finally, we establish guarantees on the rate at which we
approach a stationary point when we take steps in the direction of our new
estimated policy gradient.
- Abstract(参考訳): 強化学習における政策勾配法は、政策値の推定勾配の方向を踏襲して政策パラメータを更新する。
本稿では,特に非自明であるオフ・ポリシー・データからの政策勾配の統計的に効率的な推定について考察する。
マルコフ決定過程および非マルコフ決定過程における有意な平均二乗誤差の漸近的下界を導出し、既存の推定器が一般には達成できないことを示す。
パラメトリックな仮定なしに下界を達成するメタアルゴリズムを提案し、ユニークな3方向二重強靭性を示す。
アルゴリズムが依存するニュアンスを推定する方法について議論する。
最後に、我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
関連論文リスト
- A Policy Gradient Method for Confounded POMDPs [7.75007282943125]
オフライン環境下での連続状態と観測空間を持つ部分観測可能マルコフ決定過程(POMDP)の整合化のためのポリシー勾配法を提案する。
まず、オフラインデータを用いて、POMDPの履歴依存ポリシー勾配を非パラメトリックに推定するために、新しい識別結果を確立する。
論文 参考訳(メタデータ) (2023-05-26T16:48:05Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based
Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。
本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T04:09:18Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。