論文の概要: You Only Evaluate Once: a Simple Baseline Algorithm for Offline RL
- arxiv url: http://arxiv.org/abs/2110.02304v1
- Date: Tue, 5 Oct 2021 19:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:14:34.181639
- Title: You Only Evaluate Once: a Simple Baseline Algorithm for Offline RL
- Title(参考訳): 一度だけ評価する:オフラインRLのためのシンプルなベースラインアルゴリズム
- Authors: Wonjoon Goo, Scott Niekum
- Abstract要約: 政策評価のステップを一度だけ行うオフライン強化学習のためのベースラインアルゴリズムを提案する。
提案アルゴリズムは、D4RLオフラインRLベンチマークのサブセットにおいて、競合的かつ時折最先端のパフォーマンスを示すことを実証的に見出した。
- 参考スコア(独自算出の注目度): 29.98260009732724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of offline reinforcement learning (RL) is to find an optimal policy
given prerecorded trajectories. Many current approaches customize existing
off-policy RL algorithms, especially actor-critic algorithms in which policy
evaluation and improvement are iterated. However, the convergence of such
approaches is not guaranteed due to the use of complex non-linear function
approximation and an intertwined optimization process. By contrast, we propose
a simple baseline algorithm for offline RL that only performs the policy
evaluation step once so that the algorithm does not require complex
stabilization schemes. Since the proposed algorithm is not likely to converge
to an optimal policy, it is an appropriate baseline for actor-critic algorithms
that ought to be outperformed if there is indeed value in iterative
optimization in the offline setting. Surprisingly, we empirically find that the
proposed algorithm exhibits competitive and sometimes even state-of-the-art
performance in a subset of the D4RL offline RL benchmark. This result suggests
that future work is needed to fully exploit the potential advantages of
iterative optimization in order to justify the reduced stability of such
methods.
- Abstract(参考訳): オフライン強化学習(RL)の目的は、事前記録された軌跡から最適な方針を見つけることである。
現在の多くのアプローチでは、政策評価と改善が反復される既存の非政治的RLアルゴリズム、特にアクター批判アルゴリズムをカスタマイズしている。
しかし、そのような手法の収束は、複雑な非線形関数近似と相互最適化プロセスを用いることによって保証されない。
対照的に、オフラインRLのための単純なベースラインアルゴリズムを提案し、そのアルゴリズムが複雑な安定化スキームを必要としないようにポリシー評価ステップを一度だけ実行する。
提案アルゴリズムは最適ポリシーに収束する可能性が低いため,オフライン設定において反復最適化に真の価値がある場合,アクタ批判アルゴリズムは性能が向上するべきである。
驚くべきことに、提案アルゴリズムは、D4RLオフラインRLベンチマークのサブセットにおいて、競合的かつ時折最先端のパフォーマンスを示す。
この結果は、そのような手法の安定性の低下を正当化するために、反復最適化の潜在的な利点を十分に活用するために将来の作業が必要であることを示唆している。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。
提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文 参考訳(メタデータ) (2021-08-29T20:51:32Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。