論文の概要: TASAC: Temporally Abstract Soft Actor-Critic for Continuous Control
- arxiv url: http://arxiv.org/abs/2104.06521v1
- Date: Tue, 13 Apr 2021 21:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:29:07.401275
- Title: TASAC: Temporally Abstract Soft Actor-Critic for Continuous Control
- Title(参考訳): TASAC: 連続制御のためのテンポラリなソフトアクタークリティカル
- Authors: Haonan Yu, Wei Xu, Haichao Zhang
- Abstract要約: TASACは、ソフトアクタークリティカルフレームワークに閉ループ時間抽象化を組み込んだオフポリシーRLアルゴリズムである。
従来のオフポリシーRLアルゴリズムと比較して2つの利点があります。永続的探索とTD学習のための偏見のないマルチステップQ演算子です。
- 参考スコア(独自算出の注目度): 28.534585378574143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose temporally abstract soft actor-critic (TASAC), an off-policy RL
algorithm that incorporates closed-loop temporal abstraction into the soft
actor-critic (SAC) framework in a simple manner. TASAC adds a second-stage
binary policy to choose between the previous action and the action output by an
SAC actor. It has two benefits compared to traditional off-policy RL
algorithms: persistent exploration and an unbiased multi-step Q operator for TD
learning. We demonstrate its advantages over several strong baselines across 5
different categories of 14 continuous control tasks, in terms of both sample
efficiency and final performance. Because of its simplicity and generality,
TASAC can serve as a drop-in replacement for SAC when temporal abstraction is
needed.
- Abstract(参考訳): そこで本研究では,sac(soft actor-critic)フレームワークにクローズドループの時間的抽象化を組み込んだ,オフポリシーrlアルゴリズムであるtasacを提案する。
TASACは、前のアクションとSACアクターが出力するアクションを選択するための2段階のバイナリポリシーを追加する。
従来のオフポリシーrlアルゴリズムと比較して、永続的探索とtd学習のための偏りのないマルチステップq演算子という2つの利点がある。
サンプル効率と最終性能の両方の観点から,14の連続制御タスクの5つのカテゴリにまたがる強固なベースラインに対して,そのアドバンテージを示す。
単純さと汎用性のため、TASACは時間的抽象化が必要なときにSACの代替となる。
関連論文リスト
- Reinforcement Learning with Elastic Time Steps [17.529703157304887]
ソフト・Elastic Actor-Critic (SEAC) は、この問題に対処するための非政治的アクター批判アルゴリズムである。
SEACは弾性時間ステップ、既知の可変期間の時間ステップを実装しており、エージェントが制御周波数を変更して状況に適応することができる。
ニュートン・キネマティクスの迷路ナビゲーションタスクと3Dレーシングゲーム『トラックマニア』におけるSEACのシミュレーション能力を評価する。
論文 参考訳(メタデータ) (2024-02-22T20:49:04Z) - DSAC-T: Distributional Soft Actor-Critic with Three Refinements [31.590177154247485]
分散ソフトアクター批判 (DSAC) と呼ばれる非政治的RLアルゴリズムを導入する。
標準DSACには、時折不安定な学習プロセスやタスク固有の報酬スケーリングの必要性など、独自の欠点がある。
本稿では,これらの問題点に対処するため,標準DSACに3つの重要な改良点を紹介する。
論文 参考訳(メタデータ) (2023-10-09T16:52:48Z) - Soft Decomposed Policy-Critic: Bridging the Gap for Effective Continuous
Control with Discrete RL [47.80205106726076]
本稿では,この制限を克服するために,ソフトRLとアクター批判技術を組み合わせたSDPCアーキテクチャを提案する。
SDPCは各アクション次元を独立に識別し、共有批評家ネットワークを用いてソフトな$Q$関数を最大化する。
提案手法は,MujocoのHumanoidやBox2dのBiWalkerなど,さまざまな連続制御タスクにおいて,最先端の連続RLアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-08-20T08:32:11Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - PAC-Bayesian Soft Actor-Critic Learning [10.462479979608021]
アクター批判アルゴリズムは2つの関数近似器を通して強化学習(RL)と政策評価と改善の両目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - OPAC: Opportunistic Actor-Critic [0.0]
Opportunistic Actor-Critic (OPAC) は、より優れた探索ポリシーとより分散の少ないモデルのないディープRLアルゴリズムである。
OPACは、TD3とSACの最も強力な機能を組み合わせて、政治以外の方法でポリシーを最適化することを目指している。
論文 参考訳(メタデータ) (2020-12-11T18:33:35Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文 参考訳(メタデータ) (2020-06-19T22:52:43Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。