Fugu-MT 論文翻訳(概要): TASAC: Temporally Abstract Soft Actor-Critic for Continuous Control

論文の概要: TASAC: Temporally Abstract Soft Actor-Critic for Continuous Control

arxiv url: http://arxiv.org/abs/2104.06521v1
Date: Tue, 13 Apr 2021 21:24:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-15 13:29:07.401275
Title: TASAC: Temporally Abstract Soft Actor-Critic for Continuous Control
Title（参考訳）: TASAC: 連続制御のためのテンポラリなソフトアクタークリティカル
Authors: Haonan Yu, Wei Xu, Haichao Zhang
Abstract要約: TASACは、ソフトアクタークリティカルフレームワークに閉ループ時間抽象化を組み込んだオフポリシーRLアルゴリズムである。従来のオフポリシーRLアルゴリズムと比較して2つの利点があります。永続的探索とTD学習のための偏見のないマルチステップQ演算子です。
参考スコア（独自算出の注目度）: 28.534585378574143
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose temporally abstract soft actor-critic (TASAC), an off-policy RL algorithm that incorporates closed-loop temporal abstraction into the soft actor-critic (SAC) framework in a simple manner. TASAC adds a second-stage binary policy to choose between the previous action and the action output by an SAC actor. It has two benefits compared to traditional off-policy RL algorithms: persistent exploration and an unbiased multi-step Q operator for TD learning. We demonstrate its advantages over several strong baselines across 5 different categories of 14 continuous control tasks, in terms of both sample efficiency and final performance. Because of its simplicity and generality, TASAC can serve as a drop-in replacement for SAC when temporal abstraction is needed.
Abstract（参考訳）: そこで本研究では,sac(soft actor-critic)フレームワークにクローズドループの時間的抽象化を組み込んだ,オフポリシーrlアルゴリズムであるtasacを提案する。 TASACは、前のアクションとSACアクターが出力するアクションを選択するための2段階のバイナリポリシーを追加する。従来のオフポリシーrlアルゴリズムと比較して、永続的探索とtd学習のための偏りのないマルチステップq演算子という2つの利点がある。サンプル効率と最終性能の両方の観点から,14の連続制御タスクの5つのカテゴリにまたがる強固なベースラインに対して,そのアドバンテージを示す。単純さと汎用性のため、TASACは時間的抽象化が必要なときにSACの代替となる。

関連論文リスト

IL-SOAR : Imitation Learning with Soft Optimistic Actor cRitic [52.44637913176449]
本稿では、模倣学習のためのSOARフレームワークを紹介する。これは、コストとポリシーの更新を交互に行うプリミティブデュアルスタイルのアルゴリズムで、専門家によるデモンストレーションからポリシーを学ぶアルゴリズムテンプレートである。いくつかの MuJoCo 環境では,f-IRL,ML-IRL,CSIL などのソフトアクタ批判に基づく模倣学習アルゴリズムの性能を一貫して向上することが示されている。
論文参考訳（メタデータ） (2025-02-27T08:03:37Z)
Langevin Soft Actor-Critic: Efficient Exploration through Uncertainty-Driven Critic Learning [33.42657871152637]
Langevin Soft Actor Critic (LSAC) は、政策最適化に対する不確実性推定による批判的学習の強化を優先している。 LSACは、連続制御タスクのための主流モデルフリーなRLアルゴリズムの性能より優れているか、あるいは劣っている。特にLSACは、連続的なアクション空間を持つ連続制御タスクにおけるLCCベースのトンプソンサンプリングの最初の成功例である。
論文参考訳（メタデータ） (2025-01-29T18:18:00Z)
Unified Active Retrieval for Retrieval Augmented Generation [69.63003043712696]
Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。既存のアクティブ検索手法は2つの課題に直面している。彼らは通常、様々な種類の命令を扱うのに苦労する単一の基準に頼っている。それらは特殊で高度に区別された手順に依存しており、それらを組み合わせることでRAGシステムはより複雑になる。
論文参考訳（メタデータ） (2024-06-18T12:09:02Z)
PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文参考訳（メタデータ） (2024-02-16T04:55:09Z)
DSAC-T: Distributional Soft Actor-Critic with Three Refinements [31.590177154247485]
分散ソフトアクター批判 (DSAC) と呼ばれる非政治的RLアルゴリズムを導入する。標準DSACには、時折不安定な学習プロセスやタスク固有の報酬スケーリングの必要性など、独自の欠点がある。本稿では,これらの問題点に対処するため,標準DSACに3つの重要な改良点を紹介する。
論文参考訳（メタデータ） (2023-10-09T16:52:48Z)
Soft Decomposed Policy-Critic: Bridging the Gap for Effective Continuous Control with Discrete RL [47.80205106726076]
本稿では,この制限を克服するために,ソフトRLとアクター批判技術を組み合わせたSDPCアーキテクチャを提案する。 SDPCは各アクション次元を独立に識別し、共有批評家ネットワークを用いてソフトな$Q$関数を最大化する。提案手法は,MujocoのHumanoidやBox2dのBiWalkerなど,さまざまな連続制御タスクにおいて,最先端の連続RLアルゴリズムより優れている。
論文参考訳（メタデータ） (2023-08-20T08:32:11Z)
RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。 RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文参考訳（メタデータ） (2023-08-10T03:14:19Z)
PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文参考訳（メタデータ） (2023-01-30T10:44:15Z)
Revisiting Discrete Soft Actor-Critic [42.88653969438699]
本稿では,最新技術強化学習(RL)アルゴリズムであるSoft Actor-Critic(SAC)の適応性について検討する。エントロピーのペナルティとQクリップを用いたQ-ラーニングを両立させるアルゴリズムであるSDSAC(Stable Discrete SAC)を提案する。
論文参考訳（メタデータ） (2022-09-21T03:01:36Z)
Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。 DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文参考訳（メタデータ） (2021-02-23T18:56:13Z)
OPAC: Opportunistic Actor-Critic [0.0]
Opportunistic Actor-Critic (OPAC) は、より優れた探索ポリシーとより分散の少ないモデルのないディープRLアルゴリズムである。 OPACは、TD3とSACの最も強力な機能を組み合わせて、政治以外の方法でポリシーを最適化することを目指している。
論文参考訳（メタデータ） (2020-12-11T18:33:35Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文参考訳（メタデータ） (2020-06-19T22:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。