論文の概要: TASAC: Temporally Abstract Soft Actor-Critic for Continuous Control
- arxiv url: http://arxiv.org/abs/2104.06521v1
- Date: Tue, 13 Apr 2021 21:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:29:07.401275
- Title: TASAC: Temporally Abstract Soft Actor-Critic for Continuous Control
- Title(参考訳): TASAC: 連続制御のためのテンポラリなソフトアクタークリティカル
- Authors: Haonan Yu, Wei Xu, Haichao Zhang
- Abstract要約: TASACは、ソフトアクタークリティカルフレームワークに閉ループ時間抽象化を組み込んだオフポリシーRLアルゴリズムである。
従来のオフポリシーRLアルゴリズムと比較して2つの利点があります。永続的探索とTD学習のための偏見のないマルチステップQ演算子です。
- 参考スコア(独自算出の注目度): 28.534585378574143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose temporally abstract soft actor-critic (TASAC), an off-policy RL
algorithm that incorporates closed-loop temporal abstraction into the soft
actor-critic (SAC) framework in a simple manner. TASAC adds a second-stage
binary policy to choose between the previous action and the action output by an
SAC actor. It has two benefits compared to traditional off-policy RL
algorithms: persistent exploration and an unbiased multi-step Q operator for TD
learning. We demonstrate its advantages over several strong baselines across 5
different categories of 14 continuous control tasks, in terms of both sample
efficiency and final performance. Because of its simplicity and generality,
TASAC can serve as a drop-in replacement for SAC when temporal abstraction is
needed.
- Abstract(参考訳): そこで本研究では,sac(soft actor-critic)フレームワークにクローズドループの時間的抽象化を組み込んだ,オフポリシーrlアルゴリズムであるtasacを提案する。
TASACは、前のアクションとSACアクターが出力するアクションを選択するための2段階のバイナリポリシーを追加する。
従来のオフポリシーrlアルゴリズムと比較して、永続的探索とtd学習のための偏りのないマルチステップq演算子という2つの利点がある。
サンプル効率と最終性能の両方の観点から,14の連続制御タスクの5つのカテゴリにまたがる強固なベースラインに対して,そのアドバンテージを示す。
単純さと汎用性のため、TASACは時間的抽象化が必要なときにSACの代替となる。
関連論文リスト
- Unified Active Retrieval for Retrieval Augmented Generation [69.63003043712696]
Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。
既存のアクティブ検索手法は2つの課題に直面している。
彼らは通常、様々な種類の命令を扱うのに苦労する単一の基準に頼っている。
それらは特殊で高度に区別された手順に依存しており、それらを組み合わせることでRAGシステムはより複雑になる。
論文 参考訳(メタデータ) (2024-06-18T12:09:02Z) - PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - DSAC-T: Distributional Soft Actor-Critic with Three Refinements [31.590177154247485]
分散ソフトアクター批判 (DSAC) と呼ばれる非政治的RLアルゴリズムを導入する。
標準DSACには、時折不安定な学習プロセスやタスク固有の報酬スケーリングの必要性など、独自の欠点がある。
本稿では,これらの問題点に対処するため,標準DSACに3つの重要な改良点を紹介する。
論文 参考訳(メタデータ) (2023-10-09T16:52:48Z) - Soft Decomposed Policy-Critic: Bridging the Gap for Effective Continuous
Control with Discrete RL [47.80205106726076]
本稿では,この制限を克服するために,ソフトRLとアクター批判技術を組み合わせたSDPCアーキテクチャを提案する。
SDPCは各アクション次元を独立に識別し、共有批評家ネットワークを用いてソフトな$Q$関数を最大化する。
提案手法は,MujocoのHumanoidやBox2dのBiWalkerなど,さまざまな連続制御タスクにおいて,最先端の連続RLアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-08-20T08:32:11Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Revisiting Discrete Soft Actor-Critic [42.88653969438699]
本稿では,最新技術強化学習(RL)アルゴリズムであるSoft Actor-Critic(SAC)の適応性について検討する。
エントロピーのペナルティとQクリップを用いたQ-ラーニングを両立させるアルゴリズムであるSDSAC(Stable Discrete SAC)を提案する。
論文 参考訳(メタデータ) (2022-09-21T03:01:36Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - OPAC: Opportunistic Actor-Critic [0.0]
Opportunistic Actor-Critic (OPAC) は、より優れた探索ポリシーとより分散の少ないモデルのないディープRLアルゴリズムである。
OPACは、TD3とSACの最も強力な機能を組み合わせて、政治以外の方法でポリシーを最適化することを目指している。
論文 参考訳(メタデータ) (2020-12-11T18:33:35Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文 参考訳(メタデータ) (2020-06-19T22:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。