論文の概要: Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with
On-Policy Experience
- arxiv url: http://arxiv.org/abs/2109.11767v1
- Date: Fri, 24 Sep 2021 06:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 00:14:01.430429
- Title: Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with
On-Policy Experience
- Title(参考訳): ソフトアクター批判の改善: オフポリシック標本とオンポリシィ体験の混合
- Authors: Chayan Banerjee, Zhiyong Chen, Nasimul Noman
- Abstract要約: ソフト・アクター・クリティカル(Soft Actor-Critic, SAC)は、アクター・アクター・アクターの強化学習アルゴリズムである。
SACは、期待されるリターンとエントロピーの間のトレードオフを最大化することでポリシーを訓練する。
一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 9.06635747612495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Soft Actor-Critic (SAC) is an off-policy actor-critic reinforcement learning
algorithm, essentially based on entropy regularization. SAC trains a policy by
maximizing the trade-off between expected return and entropy (randomness in the
policy). It has achieved state-of-the-art performance on a range of
continuous-control benchmark tasks, outperforming prior on-policy and
off-policy methods. SAC works in an off-policy fashion where data are sampled
uniformly from past experiences (stored in a buffer) using which parameters of
the policy and value function networks are updated. We propose certain crucial
modifications for boosting the performance of SAC and make it more sample
efficient. In our proposed improved SAC, we firstly introduce a new
prioritization scheme for selecting better samples from the experience replay
buffer. Secondly we use a mixture of the prioritized off-policy data with the
latest on-policy data for training the policy and the value function networks.
We compare our approach with the vanilla SAC and some recent variants of SAC
and show that our approach outperforms the said algorithmic benchmarks. It is
comparatively more stable and sample efficient when tested on a number of
continuous control tasks in MuJoCo environments.
- Abstract(参考訳): ソフトアクター・クリティカル(Soft Actor-Critic, SAC)は、本質的にエントロピー正規化に基づく、非政治的なアクター批判強化学習アルゴリズムである。
SACは、期待されるリターンとエントロピー(政策におけるランダム性)の間のトレードオフを最大化して政策を訓練する。
一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成し、以前のオン・ポリシー法やオフ・ポリシー法を上回っている。
sacは、ポリシーと値関数ネットワークのパラメータが更新された過去の経験(バッファに格納)からデータを一様にサンプリングする、オフポリシーな方法で動作します。
本研究では,SACの性能向上のための重要な改良点を提案する。
提案する改良sacでは,まずexperience replay bufferからより良いサンプルを選択するための新しい優先順位付け方式を導入する。
次に、優先順位付けされたオフポリティクスデータと最新のオンポリティクスデータを組み合わせてポリシーとバリューファンクションネットワークをトレーニングする。
我々はこのアプローチをバニラ嚢と最近のsacの変種と比較し,提案手法がアルゴリズムベンチマークよりも優れていることを示した。
MuJoCo環境における多数の継続的制御タスクをテストすると、比較的安定してサンプル効率がよい。
関連論文リスト
- Soft Actor-Critic with Beta Policy via Implicit Reparameterization Gradients [0.0]
ソフトアクター批判(SAC)は、政策最適化と非政治学習を組み合わせることで、サンプル効率を低下させる。
勾配がreパラメータ化トリックによって計算できる分布に限られる。
シミュレーションロボットの移動環境におけるベータポリシーにより,SACの訓練にこの手法を拡張した。
実験結果から,ベータポリシが通常のポリシよりも優れ,通常のポリシと同等であることから,ベータポリシが有効な代替手段であることが示唆された。
論文 参考訳(メタデータ) (2024-09-08T04:30:51Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Off-Policy Correction for Deep Deterministic Policy Gradient Algorithms
via Batch Prioritized Experience Replay [0.0]
そこで我々は, KL Divergence を用いた新しいアルゴリズム Batch Prioritizing Experience Replay を開発した。
我々は,このアルゴリズムをDeep Deterministic Policy GradientとTwin Delayed Deep Deterministic Policy Gradientと組み合わせ,様々な連続制御タスクで評価する。
論文 参考訳(メタデータ) (2021-11-02T19:51:59Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文 参考訳(メタデータ) (2020-06-19T22:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。