論文の概要: A Connection between One-Step Regularization and Critic Regularization
in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.12968v1
- Date: Mon, 24 Jul 2023 17:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:24:28.494730
- Title: A Connection between One-Step Regularization and Critic Regularization
in Reinforcement Learning
- Title(参考訳): 強化学習における一段階正規化と批判正規化の関連
- Authors: Benjamin Eysenbach, Matthieu Geist, Sergey Levine, Ruslan
Salakhutdinov
- Abstract要約: 1ステップの手法は、政策改善の1ステップだけを実行することで正規化を行う。
批判的正規化手法は 政策改善の多くのステップを 正規化の目的で行います
多段階批判正規化法を1イテレーションの正規化係数で適用すると、1ステップRLと同じポリシーが得られる。
- 参考スコア(独自算出の注目度): 163.44116192806922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As with any machine learning problem with limited data, effective offline RL
algorithms require careful regularization to avoid overfitting. One-step
methods perform regularization by doing just a single step of policy
improvement, while critic regularization methods do many steps of policy
improvement with a regularized objective. These methods appear distinct.
One-step methods, such as advantage-weighted regression and conditional
behavioral cloning, truncate policy iteration after just one step. This ``early
stopping'' makes one-step RL simple and stable, but can limit its asymptotic
performance. Critic regularization typically requires more compute but has
appealing lower-bound guarantees. In this paper, we draw a close connection
between these methods: applying a multi-step critic regularization method with
a regularization coefficient of 1 yields the same policy as one-step RL. While
practical implementations violate our assumptions and critic regularization is
typically applied with smaller regularization coefficients, our experiments
nevertheless show that our analysis makes accurate, testable predictions about
practical offline RL methods (CQL and one-step RL) with commonly-used
hyperparameters. Our results that every problem can be solved with a single
step of policy improvement, but rather that one-step RL might be competitive
with critic regularization on RL problems that demand strong regularization.
- Abstract(参考訳): 制限されたデータを持つ機械学習問題と同様に、効果的なオフラインrlアルゴリズムはオーバーフィットを避けるために注意深い正規化を必要とする。
一段階法は政策改善の一段階のみを行ない、批判的正則化法は政策改善の多段階を規則化された目的で行う。
これらの方法は別物である。
アドバンテージ重み付け回帰や条件付き行動クローニングのようなワンステップメソッドは、ほんの1ステップでポリシーイテレーションを中断する。
この ``early stop'' はワンステップrlをシンプルで安定させるが、漸近的な性能を制限することができる。
批判的正規化は通常、より多くの計算を必要とするが、低いバウンド保証をアピールする。
本稿では,これらの手法の密接な関係を描いている: 1 の正規化係数を持つ多段階批判正規化法を適用すると,一段階 RL と同じ方針が得られる。
実用的実装は仮定に反し、批判正則化は通常より小さな正規化係数で適用されるが、我々の実験は、我々の分析が一般的に使用されるハイパーパラメータを用いた実用的なオフラインRL法(CQLおよびワンステップRL)について正確かつ検証可能な予測を行うことを示している。
以上の結果から, 政策改善の一段階ですべての問題を解くことができるが, より強い正則化を求めるRL問題に対する批判正則化とは一段階RLが競合する可能性がある。
関連論文リスト
- Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - ReLOAD: Reinforcement Learning with Optimistic Ascent-Descent for
Last-Iterate Convergence in Constrained MDPs [31.663072540757643]
強化学習(Reinforcement Learning, RL)は, 実世界の課題に応用され, 成功を収めている。
Reinforcement Learning with Optimistic Ascent-Descent (ReLOAD)を紹介する。
論文 参考訳(メタデータ) (2023-02-02T18:05:27Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。
提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文 参考訳(メタデータ) (2021-08-29T20:51:32Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。