Fugu-MT 論文翻訳(概要): Revisiting Discrete Soft Actor-Critic

論文の概要: Revisiting Discrete Soft Actor-Critic

arxiv url: http://arxiv.org/abs/2209.10081v1
Date: Wed, 21 Sep 2022 03:01:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-22 15:34:07.231766
Title: Revisiting Discrete Soft Actor-Critic
Title（参考訳）: 離散的アクター批判の再考
Authors: Haibin Zhou, Zichuan Lin, Junyou Li, Deheng Ye, Qiang Fu, Wei Yang
Abstract要約: 我々は、バニラSACを再検討し、そのQ値の過小評価と性能不安定の問題について深い理解を提供する。本稿では,これらの問題に対処するため,Q-clipを用いたエントロピー・ペナルティとダブル平均Q-ラーニングを提案する。
参考スコア（独自算出の注目度）: 13.548839096059929
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the adaption of soft actor-critic (SAC)from continuous action space to discrete action space. We revisit vanilla SAC and provide an in-depth understanding of its Q value underestimation and performance instability issues when applied to discrete settings. We thereby propose entropy-penalty and double average Q-learning with Q-clip to address these issues. Extensive experiments on typical benchmarks with discrete action space, including Atari games and a large-scale MOBA game, show the efficacy of our proposed method. Our code is at:https://github.com/coldsummerday/Revisiting-Discrete-SAC.
Abstract（参考訳）: 本研究では,ソフトアクター・クリティック(SAC)の連続的な行動空間から離散的な行動空間への適応について検討する。我々はバニラSACを再検討し、個別設定に適用した場合のQ値の過小評価と性能不安定問題を詳細に理解する。そこで本研究では,エントロピーペナルティとq-clipを用いた二重平均q-learningを提案する。アタリゲームや大規模なMOBAゲームなど、離散的なアクション空間を持つ典型的なベンチマーク実験により、提案手法の有効性が示された。私たちのコードは:https://github.com/coldsummerday/Revisiting-Discrete-SACです。

関連論文リスト

RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。 RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文参考訳（メタデータ） (2023-08-10T03:14:19Z)
Target Entropy Annealing for Discrete Soft Actor-Critic [64.71285903492183]
SAC(Soft Actor-Critic)は、継続的なアクション設定のための最先端のアルゴリズムである。 SACが離散領域でうまく機能しないことを示す経験的証拠は、直感的ではない。 SACに適用したターゲットエントロピーパラメータのアニール法であるTarget Entropy Scheduled SAC (TES-SAC)を提案する。我々は,Atari 2600 のゲームと異なる目標エントロピー SAC を比較し,スケジューリングが SAC に与える影響を解析した。
論文参考訳（メタデータ） (2021-12-06T08:21:27Z)
Deep Reinforcement Learning-based UAV Navigation and Control: A Soft Actor-Critic with Hindsight Experience Replay Approach [0.9137554315375919]
深部強化学習 (DRL) アルゴリズムのクラスとして, 後視体験リプレイ (HER) を用いたSACHER (Software actor-critic, SAC) を提案する。 HERはSACのサンプル効率を向上するため,SACHERはSACよりも高速かつ高精度に最適な結果が得られることを示す。無人航空機(UAV)の航法・制御問題にSACHERを適用し,SACHERが最適航法経路を生成する。
論文参考訳（メタデータ） (2021-06-02T08:30:14Z)
TASAC: Temporally Abstract Soft Actor-Critic for Continuous Control [28.534585378574143]
TASACは、ソフトアクタークリティカルフレームワークに閉ループ時間抽象化を組み込んだオフポリシーRLアルゴリズムである。従来のオフポリシーRLアルゴリズムと比較して2つの利点があります。永続的探索とTD学習のための偏見のないマルチステップQ演算子です。
論文参考訳（メタデータ） (2021-04-13T21:24:44Z)
Predictive Information Accelerates Learning in RL [50.52439807008805]
我々は、RL環境力学の予測情報の圧縮表現を学習する補助タスクで、画素からSoft Actor-Critic(SAC)エージェントを訓練する。 PI-SACエージェントは、連続制御環境のDM制御スイートからタスクのベースラインに挑戦するよりも、サンプル効率を大幅に改善できることを示す。
論文参考訳（メタデータ） (2020-07-24T08:14:41Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
RSAC: Regularized Subspace Approximation Classifier for Lightweight Continuous Learning [0.9137554315375922]
継続的学習は、時々来るデータについて学習を行おうとする。本研究では,軽量な連続学習を実現するために,新たなトレーニングアルゴリズムである正規化部分空間近似分類器(RSAC)を提案する。大規模な実験により、RSACは従来の継続的学習よりも効率的であることが示され、様々な実験環境下での作業よりも優れていた。
論文参考訳（メタデータ） (2020-07-03T03:38:06Z)
Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文参考訳（メタデータ） (2020-06-19T22:52:43Z)
SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive Connection [51.376723069962]
本稿では,スパース適応接続(Sparse Adaptive Connection)を提案する。 SACでは、入力シーケンスをグラフとみなし、リンクノード間のアテンション操作を行う。我々は,SACが最先端モデルと競合する一方で,メモリコストを大幅に削減することを示した。
論文参考訳（メタデータ） (2020-03-22T07:58:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。