論文の概要: Revisiting Discrete Soft Actor-Critic
- arxiv url: http://arxiv.org/abs/2209.10081v4
- Date: Wed, 20 Nov 2024 13:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:11:02.186395
- Title: Revisiting Discrete Soft Actor-Critic
- Title(参考訳): 離散的アクター批判の再考
- Authors: Haibin Zhou, Tong Wei, Zichuan Lin, junyou li, Junliang Xing, Yuanchun Shi, Li Shen, Chao Yu, Deheng Ye,
- Abstract要約: 本稿では,最新技術強化学習(RL)アルゴリズムであるSoft Actor-Critic(SAC)の適応性について検討する。
エントロピーのペナルティとQクリップを用いたQ-ラーニングを両立させるアルゴリズムであるSDSAC(Stable Discrete SAC)を提案する。
- 参考スコア(独自算出の注目度): 42.88653969438699
- License:
- Abstract: We study the adaption of Soft Actor-Critic (SAC), which is considered as a state-of-the-art reinforcement learning (RL) algorithm, from continuous action space to discrete action space. We revisit vanilla discrete SAC and provide an in-depth understanding of its Q value underestimation and performance instability issues when applied to discrete settings. We thereby propose Stable Discrete SAC (SDSAC), an algorithm that leverages entropy-penalty and double average Q-learning with Q-clip to address these issues. Extensive experiments on typical benchmarks with discrete action space, including Atari games and a large-scale MOBA game, show the efficacy of our proposed method. Our code is at: https://github.com/coldsummerday/SD-SAC.git.
- Abstract(参考訳): 本研究では、連続的な行動空間から離散的な行動空間へ、最先端の強化学習(RL)アルゴリズムであるSoft Actor-Critic(SAC)の適応性について検討する。
バニラ離散SACを再検討し、離散設定に適用した場合のQ値の過小評価と性能不安定性の問題を深く理解する。
そこで我々は,この問題に対処するために,Q-clipを用いたエントロピーペナルティと2重平均Q-ラーニングを利用するSDSAC(Stable Discrete SAC)を提案する。
アタリゲームや大規模なMOBAゲームなど、離散的なアクション空間を持つ典型的なベンチマーク実験により、提案手法の有効性が示された。
私たちのコードは以下の通りです。
関連論文リスト
- RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - LECO: Learnable Episodic Count for Task-Specific Intrinsic Reward [18.876996382063517]
エピソードカウントは、単純だが効果的な本質的なモチベーションを、まばらな報酬を伴う強化学習のために設計するために広く用いられている。
本稿では,難解な探索問題において,タスク固有の固有報酬として効率的に機能する,学習可能なハッシュベースのエピソードカウントを提案する。
論文 参考訳(メタデータ) (2022-10-11T12:34:49Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - Target Entropy Annealing for Discrete Soft Actor-Critic [64.71285903492183]
SAC(Soft Actor-Critic)は、継続的なアクション設定のための最先端のアルゴリズムである。
SACが離散領域でうまく機能しないことを示す経験的証拠は、直感的ではない。
SACに適用したターゲットエントロピーパラメータのアニール法であるTarget Entropy Scheduled SAC (TES-SAC)を提案する。
我々は,Atari 2600 のゲームと異なる目標エントロピー SAC を比較し,スケジューリングが SAC に与える影響を解析した。
論文 参考訳(メタデータ) (2021-12-06T08:21:27Z) - TASAC: Temporally Abstract Soft Actor-Critic for Continuous Control [28.534585378574143]
TASACは、ソフトアクタークリティカルフレームワークに閉ループ時間抽象化を組み込んだオフポリシーRLアルゴリズムである。
従来のオフポリシーRLアルゴリズムと比較して2つの利点があります。永続的探索とTD学習のための偏見のないマルチステップQ演算子です。
論文 参考訳(メタデータ) (2021-04-13T21:24:44Z) - Predictive Information Accelerates Learning in RL [50.52439807008805]
我々は、RL環境力学の予測情報の圧縮表現を学習する補助タスクで、画素からSoft Actor-Critic(SAC)エージェントを訓練する。
PI-SACエージェントは、連続制御環境のDM制御スイートからタスクのベースラインに挑戦するよりも、サンプル効率を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-07-24T08:14:41Z) - Meta-SAC: Auto-tune the Entropy Temperature of Soft Actor-Critic via
Metagradient [5.100592488212484]
提案手法は,元のタスク報酬とポリシエントロピーのバランスをとる「エントロピー温度」を用いたソフトアクタ・クリティカル(SAC)アルゴリズムに基づいている。
我々は,Meta-SACがいくつかのMujocoベンチマークタスクで有望なパフォーマンスを達成し,最も困難なタスクの1つでSAC-v2を10%以上上回っていることを示す。
論文 参考訳(メタデータ) (2020-07-03T20:26:50Z) - Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文 参考訳(メタデータ) (2020-06-19T22:52:43Z) - SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive
Connection [51.376723069962]
本稿では,スパース適応接続(Sparse Adaptive Connection)を提案する。
SACでは、入力シーケンスをグラフとみなし、リンクノード間のアテンション操作を行う。
我々は,SACが最先端モデルと競合する一方で,メモリコストを大幅に削減することを示した。
論文 参考訳(メタデータ) (2020-03-22T07:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。