論文の概要: Offline RL Without Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2106.08909v1
- Date: Wed, 16 Jun 2021 16:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:37:02.751717
- Title: Offline RL Without Off-Policy Evaluation
- Title(参考訳): オフライン評価のないオフラインRL
- Authors: David Brandfonbrener, William F. Whitney, Rajesh Ranganath, Joan Bruna
- Abstract要約: 政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
- 参考スコア(独自算出の注目度): 49.11859771578969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most prior approaches to offline reinforcement learning (RL) have taken an
iterative actor-critic approach involving off-policy evaluation. In this paper
we show that simply doing one step of constrained/regularized policy
improvement using an on-policy Q estimate of the behavior policy performs
surprisingly well. This one-step algorithm beats the previously reported
results of iterative algorithms on a large portion of the D4RL benchmark. The
simple one-step baseline achieves this strong performance without many of the
tricks used by previously proposed iterative algorithms and is more robust to
hyperparameters. We argue that the relatively poor performance of iterative
approaches is a result of the high variance inherent in doing off-policy
evaluation and magnified by the repeated optimization of policies against those
high-variance estimates. In addition, we hypothesize that the strong
performance of the one-step algorithm is due to a combination of favorable
structure in the environment and behavior policy.
- Abstract(参考訳): オフライン強化学習(rl)に対するほとんどの以前のアプローチは、オフポリシー評価を含む反復的なアクター-批判的アプローチを採用している。
本稿では,行動政策のオンポリシーq推定を用いて,制約・規則化政策改善の一段階を単純に行えば,驚くほどうまく機能することを示す。
このワンステップアルゴリズムは、d4rlベンチマークの大部分で以前報告された反復アルゴリズムの結果を上回っている。
単純な1ステップベースラインは、以前に提案された反復アルゴリズムで使われる多くのトリックなしでこの強力な性能を実現し、ハイパーパラメータよりも堅牢である。
我々は、反復的アプローチの比較的貧弱な性能は、非政治的評価に固有の高分散の結果であり、これらの高分散推定に対するポリシーの繰り返し最適化によって拡大されていると論じる。
さらに,1段階のアルゴリズムの強い性能は,環境と行動方針の良好な構造の組み合わせによるものである,という仮説を立てた。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - You Only Evaluate Once: a Simple Baseline Algorithm for Offline RL [29.98260009732724]
政策評価のステップを一度だけ行うオフライン強化学習のためのベースラインアルゴリズムを提案する。
提案アルゴリズムは、D4RLオフラインRLベンチマークのサブセットにおいて、競合的かつ時折最先端のパフォーマンスを示すことを実証的に見出した。
論文 参考訳(メタデータ) (2021-10-05T19:05:47Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Proximal Deterministic Policy Gradient [20.951797549505986]
政治以外の強化学習(RL)アルゴリズムを改善するための2つの手法を提案する。
我々は、現在最先端のオフポリシーアルゴリズムでよく使われている2つの値関数を利用して、改善されたアクション値推定を提供する。
標準連続制御RLベンチマークにおいて,最先端アルゴリズムよりも高い性能向上を示す。
論文 参考訳(メタデータ) (2020-08-03T10:19:59Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。