論文の概要: Target Entropy Annealing for Discrete Soft Actor-Critic
- arxiv url: http://arxiv.org/abs/2112.02852v1
- Date: Mon, 6 Dec 2021 08:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 15:05:32.579985
- Title: Target Entropy Annealing for Discrete Soft Actor-Critic
- Title(参考訳): 離散型ソフトアクタ-クリティックのためのターゲットエントロピーアニーリング
- Authors: Yaosheng Xu and Dailin Hu and Litian Liang and Stephen McAleer and
Pieter Abbeel and Roy Fox
- Abstract要約: SAC(Soft Actor-Critic)は、継続的なアクション設定のための最先端のアルゴリズムである。
SACが離散領域でうまく機能しないことを示す経験的証拠は、直感的ではない。
SACに適用したターゲットエントロピーパラメータのアニール法であるTarget Entropy Scheduled SAC (TES-SAC)を提案する。
我々は,Atari 2600 のゲームと異なる目標エントロピー SAC を比較し,スケジューリングが SAC に与える影響を解析した。
- 参考スコア(独自算出の注目度): 64.71285903492183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft Actor-Critic (SAC) is considered the state-of-the-art algorithm in
continuous action space settings. It uses the maximum entropy framework for
efficiency and stability, and applies a heuristic temperature Lagrange term to
tune the temperature $\alpha$, which determines how "soft" the policy should
be. It is counter-intuitive that empirical evidence shows SAC does not perform
well in discrete domains. In this paper we investigate the possible
explanations for this phenomenon and propose Target Entropy Scheduled SAC
(TES-SAC), an annealing method for the target entropy parameter applied on SAC.
Target entropy is a constant in the temperature Lagrange term and represents
the target policy entropy in discrete SAC. We compare our method on Atari 2600
games with different constant target entropy SAC, and analyze on how our
scheduling affects SAC.
- Abstract(参考訳): SAC(Soft Actor-Critic)は、連続的なアクション空間設定における最先端のアルゴリズムである。
効率と安定性のために最大エントロピーフレームワークを使用し、ヒューリスティックな温度ラグランジュ項を適用して温度$\alpha$をチューニングし、ポリシーがいかに「ソフト」であるべきかを決定する。
SACが離散領域でうまく機能しないことを示す経験的証拠は、直感的ではない。
本稿では,この現象の可能性を考察し,SACに適用したターゲットエントロピーパラメータのアニーリング法であるTarget Entropy Scheduled SAC(TES-SAC)を提案する。
ターゲットエントロピーは温度ラグランジュ項における定数であり、離散SACにおけるターゲットポリシーエントロピーを表す。
我々は,Atari 2600 のゲームと異なる目標エントロピー SAC を比較し,スケジューリングが SAC に与える影響を解析した。
関連論文リスト
- Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Do You Need the Entropy Reward (in Practice)? [29.811723497181486]
エントロピーによって課される規則化は、政策改善と政策評価の両方において、共に優れた探索、訓練の収束、学習された政策の堅牢性に寄与していると考えられている。
本稿では,ソフトアクター・クリティック(SAC)の様々なアブレーション研究を行い,エントロピーを本質的な報酬としてより深く考察する。
以上の結果から,一般にエントロピー報酬は政策評価に注意を払って適用すべきであることが示唆された。
論文 参考訳(メタデータ) (2022-01-28T21:43:21Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with
On-Policy Experience [9.06635747612495]
ソフト・アクター・クリティカル(Soft Actor-Critic, SAC)は、アクター・アクター・アクターの強化学習アルゴリズムである。
SACは、期待されるリターンとエントロピーの間のトレードオフを最大化することでポリシーを訓練する。
一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-09-24T06:46:28Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Maximum Entropy Reinforcement Learning with Mixture Policies [54.291331971813364]
MaxEntアルゴリズムを用いて混合エントロピーのトラクタブル近似を構築する。
我々は、それが限界エントロピーの合計と密接に関連していることを示しています。
我々は, 混合ポリシーケースに対するsoft actor-critic (sac) のアルゴリズム的変種を導出し, 一連の連続制御タスクで評価する。
論文 参考訳(メタデータ) (2021-03-18T11:23:39Z) - Meta-SAC: Auto-tune the Entropy Temperature of Soft Actor-Critic via
Metagradient [5.100592488212484]
提案手法は,元のタスク報酬とポリシエントロピーのバランスをとる「エントロピー温度」を用いたソフトアクタ・クリティカル(SAC)アルゴリズムに基づいている。
我々は,Meta-SACがいくつかのMujocoベンチマークタスクで有望なパフォーマンスを達成し,最も困難なタスクの1つでSAC-v2を10%以上上回っていることを示す。
論文 参考訳(メタデータ) (2020-07-03T20:26:50Z) - Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文 参考訳(メタデータ) (2020-06-19T22:52:43Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。