論文の概要: Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2001.10742v1
- Date: Wed, 29 Jan 2020 09:56:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 20:36:29.831914
- Title: Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement
Learning
- Title(参考訳): 単語強化学習における漸近的効果的なオフポリティ評価
- Authors: Ming Yin and Yu-Xiang Wang (University of California Santa Barbara)
- Abstract要約: 強化学習における非政治的評価の問題点を考察する。
目標は、ログポリシの実行によって収集されたオフラインデータを使用して、ターゲットポリシの期待される報酬を見積もることである。
平均二乗誤差のオーダーO(H3/n)$の誤差を平均二乗誤差で推定するために,MIS法が有効であることを示す。
- 参考スコア(独自算出の注目度): 20.546806161935578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of off-policy evaluation for reinforcement learning,
where the goal is to estimate the expected reward of a target policy $\pi$
using offline data collected by running a logging policy $\mu$. Standard
importance-sampling based approaches for this problem suffer from a variance
that scales exponentially with time horizon $H$, which motivates a splurge of
recent interest in alternatives that break the "Curse of Horizon" (Liu et al.
2018, Xie et al. 2019). In particular, it was shown that a marginalized
importance sampling (MIS) approach can be used to achieve an estimation error
of order $O(H^3/ n)$ in mean square error (MSE) under an episodic Markov
Decision Process model with finite states and potentially infinite actions. The
MSE bound however is still a factor of $H$ away from a Cramer-Rao lower bound
of order $\Omega(H^2/n)$. In this paper, we prove that with a simple
modification to the MIS estimator, we can asymptotically attain the Cramer-Rao
lower bound, provided that the action space is finite. We also provide a
general method for constructing MIS estimators with high-probability error
bounds.
- Abstract(参考訳): そこで我々は,ログポリシ$\mu$を実行して収集したオフラインデータを用いて,目標ポリシーの期待報酬を$\pi$で見積もることを目的とした,強化学習のためのオフポリシー評価の問題を考える。
この問題に対する標準的な重要性サンプリングベースのアプローチは、タイムホライズン$h$で指数関数的にスケールする分散に苦しめられており、これは"curse of horizon"(liu et al. 2018, xie et al. 2019)を破る代替案に対する近年の関心の高まりを引き起こしている。
特に,有限状態および潜在的無限動作を有するマルコフ決定過程モデルに基づく平均二乗誤差 (MSE) の次数$O(H^3/n)$の推定誤差を達成するために,余分化重要サンプリング (MIS) 手法を用いることを示した。
しかし、MSE境界はいまだに、クラマー・ラオの下界の位数$\Omega(H^2/n)$から$H$離れている。
本稿では、MIS推定器に簡単な修正を加えることで、作用空間が有限であるようなクレイマー・ラオの下界を漸近的に達成できることを証明する。
また,高い確率誤差境界を持つMIS推定器の構成法を提案する。
関連論文リスト
- Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks [71.95722100511627]
深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。
ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:25:20Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Stochastic Shortest Path: Minimax, Parameter-Free and Towards
Horizon-Free Regret [144.6358229217845]
エージェントが目標状態に到達する前に蓄積される期待コストを最小限に抑えるために,最短経路(ssp)設定で学習する問題について検討する。
我々は,経験的遷移を慎重に歪曲し,探索ボーナスで経験的コストを摂動する新しいモデルベースアルゴリズムEB-SSPを設計する。
私達はEB-SSPが$widetildeO(B_star sqrtS A K)$のミニマックスの後悔率を達成することを証明します。
論文 参考訳(メタデータ) (2021-04-22T17:20:48Z) - Black-box Off-policy Estimation for Infinite-Horizon Reinforcement
Learning [26.880437279977155]
医療やロボティクスといった多くの現実的な応用において、長期的問題に対するオフ・ポリティクス推定が重要である。
政治外データの収集方法を知らずに定常分布の重要度を算出する新しい推定器を開発した。
論文 参考訳(メタデータ) (2020-03-24T21:44:51Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。