論文の概要: Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies
- arxiv url: http://arxiv.org/abs/2006.03900v1
- Date: Sat, 6 Jun 2020 15:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 21:34:10.811724
- Title: Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies
- Title(参考訳): 決定論的政策の二重ロバストオフポリティ値とグラディエント推定
- Authors: Nathan Kallus, Masatoshi Uehara
- Abstract要約: 本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
- 参考スコア(独自算出の注目度): 80.42316902296832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning, wherein one uses off-policy data logged by a
fixed behavior policy to evaluate and learn new policies, is crucial in
applications where experimentation is limited such as medicine. We study the
estimation of policy value and gradient of a deterministic policy from
off-policy data when actions are continuous. Targeting deterministic policies,
for which action is a deterministic function of state, is crucial since optimal
policies are always deterministic (up to ties). In this setting, standard
importance sampling and doubly robust estimators for policy value and gradient
fail because the density ratio does not exist. To circumvent this issue, we
propose several new doubly robust estimators based on different kernelization
approaches. We analyze the asymptotic mean-squared error of each of these under
mild rate conditions for nuisance estimators. Specifically, we demonstrate how
to obtain a rate that is independent of the horizon length.
- Abstract(参考訳): オフライン強化学習は、医療などの実験に限られるアプリケーションにおいて、一定の行動方針によって記録された外部の政治データを用いて、新しい政策を評価し、学習する。
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
行動が国家の決定論的機能である決定論的政策を目標とするのは、最適政策が常に決定論的であるからである。
この設定では、密度比が存在しないため、政策価値と勾配に対する標準的重要度サンプリングと二重ロバストな推定は失敗する。
この問題を回避するため,異なるカーネル化アプローチに基づく2重ロバストな推定器を複数提案する。
ニュアサンス推定器の温和なレート条件下で,これら各指標の漸近平均二乗誤差を解析した。
具体的には,地平線の長さに依存しない速度を得る方法を示す。
関連論文リスト
- Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies [24.706986328622193]
強化学習のための決定論的目標政策の非政治的評価を考察する。
動作値関数の時間差更新ベクトルの推定値の平均二乗誤差を最小化するカーネルメトリクスを学習する。
この緩和による推定誤差のバイアスとばらつきを導出し、最適なカーネル計量に対する解析解を提供する。
論文 参考訳(メタデータ) (2024-05-29T06:17:33Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。