論文の概要: Variance-Aware Off-Policy Evaluation with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2106.11960v1
- Date: Tue, 22 Jun 2021 17:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:03:46.848928
- Title: Variance-Aware Off-Policy Evaluation with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた変数認識オフポリティ評価
- Authors: Yifei Min and Tianhao Wang and Dongruo Zhou and Quanquan Gu
- Abstract要約: 線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
- 参考スコア(独自算出の注目度): 85.75516599931632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the off-policy evaluation (OPE) problem in reinforcement learning
with linear function approximation, which aims to estimate the value function
of a target policy based on the offline data collected by a behavior policy. We
propose to incorporate the variance information of the value function to
improve the sample efficiency of OPE. More specifically, for time-inhomogeneous
episodic linear Markov decision processes (MDPs), we propose an algorithm,
VA-OPE, which uses the estimated variance of the value function to reweight the
Bellman residual in Fitted Q-Iteration. We show that our algorithm achieves a
tighter error bound than the best-known result. We also provide a fine-grained
characterization of the distribution shift between the behavior policy and the
target policy. Extensive numerical experiments corroborate our theory.
- Abstract(参考訳): 本研究では,行動ポリシーによって収集されたオフラインデータに基づいて,目標政策の価値関数を推定することを目的とした線形関数近似を用いた強化学習におけるオフ・ポリシー評価(op)問題について検討する。
我々は,OPEのサンプル効率を向上させるために,値関数の分散情報を組み込むことを提案する。
より具体的には、時間不均一なエピソドックス線形マルコフ決定過程(mdps)に対して、値関数の分散を推定してベルマン残差をq-イテレーションで重み付けするアルゴリズムva-opeを提案する。
このアルゴリズムは,最もよく知られた結果よりも厳密な誤差を実現する。
また,行動方針と対象政策の分布変化を詳細に評価する。
大規模な数値実験は我々の理論を裏付ける。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies [24.706986328622193]
強化学習のための決定論的目標政策の非政治的評価を考察する。
動作値関数の時間差更新ベクトルの推定値の平均二乗誤差を最小化するカーネルメトリクスを学習する。
この緩和による推定誤差のバイアスとばらつきを導出し、最適なカーネル計量に対する解析解を提供する。
論文 参考訳(メタデータ) (2024-05-29T06:17:33Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy [11.16777821381608]
本稿では,マルコフ決定プロセスのための新しい二重ロバスト(DR)オフ・ポリティクス (DRUnknown) を導入し,ログポリシと値関数の双方が未知な状況を想定した。
提案した推定器は,まずログポリシを推定し,その評価器の分散を最小化し,ログポリシの効果を考慮し,値関数モデルを推定する。
論文 参考訳(メタデータ) (2024-04-02T10:42:44Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。