論文の概要: Batch size-invariance for policy optimization
- arxiv url: http://arxiv.org/abs/2110.00641v1
- Date: Fri, 1 Oct 2021 20:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:49:46.864860
- Title: Batch size-invariance for policy optimization
- Title(参考訳): 政策最適化のためのバッチサイズ不変性
- Authors: Jacob Hilton, Karl Cobbe, John Schulman
- Abstract要約: 政策最適化アルゴリズムのバッチサイズ不変性を示す。
我々の重要な洞察は、行動方針から近親政策を分離することである。
我々の実験は、これらのアルゴリズムがなぜ機能するのかを説明するのに役立つ。
- 参考スコア(独自算出の注目度): 11.595438998331229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We say an algorithm is batch size-invariant if changes to the batch size can
largely be compensated for by changes to other hyperparameters. Stochastic
gradient descent is well-known to have this property at small batch sizes, via
the learning rate. However, some policy optimization algorithms (such as PPO)
do not have this property, because of how they control the size of policy
updates. In this work we show how to make these algorithms batch
size-invariant. Our key insight is to decouple the proximal policy (used for
controlling policy updates) from the behavior policy (used for off-policy
corrections). Our experiments help explain why these algorithms work, and
additionally show how they can make more efficient use of stale data.
- Abstract(参考訳): バッチサイズの変更が他のハイパーパラメータの変更によって大きく補償できる場合、アルゴリズムはバッチサイズ不変である、と私たちは主張する。
確率勾配降下は、学習速度によって、この性質を小さなバッチサイズで持つことが知られている。
しかしながら、いくつかのポリシー最適化アルゴリズム(PPOなど)は、ポリシー更新のサイズを制御する方法のため、この特性を持っていない。
本稿では,これらのアルゴリズムをバッチサイズ不変にする方法を示す。
私たちの重要な洞察は、近位政策(政策更新の制御に使われる)と行動政策(オフポリシーの修正に使われる)を分離することです。
私たちの実験は、これらのアルゴリズムがなぜ動作するのかを説明するのに役立ちます。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Dimensionality Reduction and Prioritized Exploration for Policy Search [29.310742141970394]
Black-boxポリシー最適化は、パラメータレベルでポリシーを探索し更新する強化学習アルゴリズムのクラスである。
本稿では,有効パラメータの探索を優先し,完全共分散行列更新に対処する新しい手法を提案する。
我々のアルゴリズムは最近の手法よりも速く学習し、最先端の結果を得るためにはサンプルを少なくする。
論文 参考訳(メタデータ) (2022-03-09T15:17:09Z) - EnTRPO: Trust Region Policy Optimization Method with Entropy
Regularization [1.599072005190786]
信頼地域政策最適化(Trust Region Policy Optimization, TRPO)は、強化学習における政策探索アルゴリズムである。
本研究では、リプレイバッファを用いて、政治以外の学習環境からTRPOに借用する。
TRPO において、時間ステップで蓄積される pi の利点を生かすためにエントロピー正則化項を付加する。
論文 参考訳(メタデータ) (2021-10-26T03:04:00Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Optimization Issues in KL-Constrained Approximate Policy Iteration [48.24321346619156]
多くの強化学習アルゴリズムは、近似ポリシー反復(API)のバージョンと見なすことができる。
標準APIはしばしば動作が悪いが、KL-divergenceによる各ポリシー更新を以前のポリシーに正規化することで学習が安定化できることが示されている。
TRPO、MPO、VMPOなどの一般的な実用的なアルゴリズムは、連続ポリシーのKL分割に関する制約によって正規化を置き換える。
論文 参考訳(メタデータ) (2021-02-11T19:35:33Z) - Proximal Policy Optimization Smoothed Algorithm [0.0]
我々はPPOの変種であるPPOS(Proximal Policy Optimization Smooth Algorithm)を提案する。
その重要な改善点は、フラットなクリッピング法の代わりに機能的なクリッピング法を使用することである。
連続制御タスクにおける性能と安定性の両面で、最新のPPOのバリエーションよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-04T07:43:50Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Parameter-Based Value Functions [7.519872646378835]
オフポリティックアクター批判強化学習(RL)アルゴリズムは、1つのターゲットポリシーの価値関数を学習する。
私たちは値関数と呼ばれるクラスを紹介します。
the-based value function (PBVF) は、入力がポリシーパラメータを含む関数である。
学習したPBVFが、トレーニング中に見られるあらゆるポリシーを上回るような、新しいポリシーをゼロショットで学習できることを示します。
論文 参考訳(メタデータ) (2020-06-16T15:04:49Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。