論文の概要: Meta-SAC: Auto-tune the Entropy Temperature of Soft Actor-Critic via
Metagradient
- arxiv url: http://arxiv.org/abs/2007.01932v2
- Date: Fri, 31 Jul 2020 04:34:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 04:43:20.953067
- Title: Meta-SAC: Auto-tune the Entropy Temperature of Soft Actor-Critic via
Metagradient
- Title(参考訳): メタSAC: メタグラディエントによるソフトアクター・クライトのエントロピー温度の自動調整
- Authors: Yufei Wang, Tianwei Ni
- Abstract要約: 提案手法は,元のタスク報酬とポリシエントロピーのバランスをとる「エントロピー温度」を用いたソフトアクタ・クリティカル(SAC)アルゴリズムに基づいている。
我々は,Meta-SACがいくつかのMujocoベンチマークタスクで有望なパフォーマンスを達成し,最も困難なタスクの1つでSAC-v2を10%以上上回っていることを示す。
- 参考スコア(独自算出の注目度): 5.100592488212484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration-exploitation dilemma has long been a crucial issue in
reinforcement learning. In this paper, we propose a new approach to
automatically balance between these two. Our method is built upon the Soft
Actor-Critic (SAC) algorithm, which uses an "entropy temperature" that balances
the original task reward and the policy entropy, and hence controls the
trade-off between exploitation and exploration. It is empirically shown that
SAC is very sensitive to this hyperparameter, and the follow-up work (SAC-v2),
which uses constrained optimization for automatic adjustment, has some
limitations. The core of our method, namely Meta-SAC, is to use metagradient
along with a novel meta objective to automatically tune the entropy temperature
in SAC. We show that Meta-SAC achieves promising performances on several of the
Mujoco benchmarking tasks, and outperforms SAC-v2 over 10% in one of the most
challenging tasks, humanoid-v2.
- Abstract(参考訳): 探索探索ジレンマは、強化学習において長い間重要な問題であった。
本稿では,これら2つのバランスをとるための新しい手法を提案する。
提案手法は,従来のタスク報酬とポリシのエントロピーのバランスをとる「エントロピー温度」を用いて,エクスプロイトと探索のトレードオフを制御するソフトアクタ・クリティカル(SAC)アルゴリズムに基づいている。
SACはこのハイパーパラメータに非常に敏感であることが実証的に示されており、自動調整に制約付き最適化を用いるフォローアップ作業(SAC-v2)にはいくつかの制限がある。
提案手法の中核は,SACのエントロピー温度を自動調整するために,メタグラディエントと新しいメタ目的を併用することである。
我々は,Meta-SACがいくつかのMujocoベンチマークタスクにおいて有望な性能を達成し,最も困難なタスクの一つであるHumanoid-v2において,SAC-v2を10%以上上回っていることを示す。
関連論文リスト
- RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Revisiting Discrete Soft Actor-Critic [42.88653969438699]
本稿では,最新技術強化学習(RL)アルゴリズムであるSoft Actor-Critic(SAC)の適応性について検討する。
エントロピーのペナルティとQクリップを用いたQ-ラーニングを両立させるアルゴリズムであるSDSAC(Stable Discrete SAC)を提案する。
論文 参考訳(メタデータ) (2022-09-21T03:01:36Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Target Entropy Annealing for Discrete Soft Actor-Critic [64.71285903492183]
SAC(Soft Actor-Critic)は、継続的なアクション設定のための最先端のアルゴリズムである。
SACが離散領域でうまく機能しないことを示す経験的証拠は、直感的ではない。
SACに適用したターゲットエントロピーパラメータのアニール法であるTarget Entropy Scheduled SAC (TES-SAC)を提案する。
我々は,Atari 2600 のゲームと異なる目標エントロピー SAC を比較し,スケジューリングが SAC に与える影響を解析した。
論文 参考訳(メタデータ) (2021-12-06T08:21:27Z) - Context-Based Soft Actor Critic for Environments with Non-stationary
Dynamics [8.318823695156974]
本論文では, LC-SAC(Latent Context-based Soft Actor Critic)手法を提案する。
コントラスト予測損失関数を最小化することにより、学習されたコンテキスト変数は、環境ダイナミクスとエージェントの最近の振る舞いに関する情報をキャプチャする。
実験の結果, LC-SAC は MetaWorld ML1 タスクの SAC アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2021-05-07T15:00:59Z) - Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文 参考訳(メタデータ) (2020-06-19T22:52:43Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。