論文の概要: Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.03886v2
- Date: Tue, 3 Nov 2020 21:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 21:22:53.162212
- Title: Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習における自然確率政策の効率的評価
- Authors: Nathan Kallus, Masatoshi Uehara
- Abstract要約: 行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
- 参考スコア(独自算出の注目度): 80.42316902296832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the efficient off-policy evaluation of natural stochastic policies,
which are defined in terms of deviations from the behavior policy. This is a
departure from the literature on off-policy evaluation where most work consider
the evaluation of explicitly specified policies. Crucially, offline
reinforcement learning with natural stochastic policies can help alleviate
issues of weak overlap, lead to policies that build upon current practice, and
improve policies' implementability in practice. Compared with the classic case
of a pre-specified evaluation policy, when evaluating natural stochastic
policies, the efficiency bound, which measures the best-achievable estimation
error, is inflated since the evaluation policy itself is unknown. In this
paper, we derive the efficiency bounds of two major types of natural stochastic
policies: tilting policies and modified treatment policies. We then propose
efficient nonparametric estimators that attain the efficiency bounds under very
lax conditions. These also enjoy a (partial) double robustness property.
- Abstract(参考訳): 行動政策からの逸脱の観点から定義される自然確率政策の効率的なオフポリシー評価について検討する。
これは、ほとんどの仕事が明示的な政策の評価を検討するオフ・ポリシー評価に関する文献から逸脱している。
重要なことに、自然な確率的ポリシによるオフライン強化学習は、重複の弱い問題を緩和し、現在のプラクティスに基づいて構築されたポリシーを導き、実践におけるポリシーの実装性を改善するのに役立つ。
既定評価政策の古典的事例と比較して、自然確率的政策を評価する際に、評価方針自体が未知であるため、最も達成可能な推定誤差を測定する効率境界を膨らませる。
本稿では,2つの主要な自然確率政策(傾き政策と修正された治療方針)の効率限界を導出する。
そこで本研究では, 効率境界を実現する効率的な非パラメトリック推定器を提案する。
これらはまた、(部分的な)二重ロバスト性特性を享受する。
関連論文リスト
- Efficient Multi-Policy Evaluation for Reinforcement Learning [25.83084281519926]
対象とするすべてのポリシーにおける推定器のばらつきを低減するために、調整された行動ポリシーを設計する。
推定器は, 従来の最適手法に比べて, かなり低いばらつきを有することを示す。
論文 参考訳(メタデータ) (2024-08-16T12:33:40Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Beyond the Policy Gradient Theorem for Efficient Policy Updates in
Actor-Critic Algorithms [10.356356383401566]
強化学習では、ある状態における最適な行動は、その後の状態における政策決定に依存する。
政策勾配定理は, 目標値に対する構造対称性のため, 未学習の遅い政策更新を規定する。
我々は、その欠陥を欠いたポリシー更新を導入し、古典的な仮定で$mathcalO(t-1)$で、グローバル最適性への収束の保証を証明した。
論文 参考訳(メタデータ) (2022-02-15T15:04:10Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Stable and Efficient Policy Evaluation [31.04376768927044]
本稿では,斜め投影法を用いて,非政治安定かつ政治効率の良い新しいアルゴリズムを提案する。
様々な領域における実験結果から,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2020-06-06T21:14:06Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。