論文の概要: SARC: Soft Actor Retrospective Critic
- arxiv url: http://arxiv.org/abs/2306.16503v1
- Date: Wed, 28 Jun 2023 18:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 15:55:45.702430
- Title: SARC: Soft Actor Retrospective Critic
- Title(参考訳): SARC:ソフトアクターの反省的批判
- Authors: Sukriti Verma, Ayush Chopra, Jayakumar Subramanian, Mausoom Sarkar,
Nikaash Puri, Piyush Gupta, Balaji Krishnamurthy
- Abstract要約: SARC(Soft Actor Retrospective Critic)は、SAC批評家の損失を別の損失項で増大させるアクター批判アルゴリズムである。
SARCはベンチマーク環境でのSACよりも一貫した改善を提供する。
- 参考スコア(独自算出の注目度): 14.775519703997478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The two-time scale nature of SAC, which is an actor-critic algorithm, is
characterised by the fact that the critic estimate has not converged for the
actor at any given time, but since the critic learns faster than the actor, it
ensures eventual consistency between the two. Various strategies have been
introduced in literature to learn better gradient estimates to help achieve
better convergence. Since gradient estimates depend upon the critic, we posit
that improving the critic can provide a better gradient estimate for the actor
at each time. Utilizing this, we propose Soft Actor Retrospective Critic
(SARC), where we augment the SAC critic loss with another loss term -
retrospective loss - leading to faster critic convergence and consequently,
better policy gradient estimates for the actor. An existing implementation of
SAC can be easily adapted to SARC with minimal modifications. Through extensive
experimentation and analysis, we show that SARC provides consistent improvement
over SAC on benchmark environments. We plan to open-source the code and all
experiment data at: https://github.com/sukritiverma1996/SARC.
- Abstract(参考訳): 俳優-批判的アルゴリズムであるsacの2倍スケールの性質は、批評家の見積もりが俳優に対して常に収束していないという事実によって特徴づけられるが、批評家は俳優よりも速く学習するので、両者の一貫性が保証される。
様々な戦略が文献に導入され、より良い収束を達成するためにより良い勾配推定を学ぶ。
グラデーション推定は批評家に依存するため,レビュアーの改善によって,各時点における俳優のグラデーション推定が向上する可能性が示唆される。
これを利用することで、SAC批評家の損失を新たな損失期間的損失で増大させ、批評家の収束を早め、その結果、アクターの政策勾配推定をより良くするソフトアクターレトロスペクティブ批評(SARC)を提案する。
既存のSACの実装は最小限の変更で簡単にSARCに適応できる。
本研究では,SARCがベンチマーク環境におけるSACよりも一貫した改善を提供することを示す。
我々は、コードとすべての実験データを、https://github.com/sukritiverma 1996/SARCでオープンソース化する予定です。
関連論文リスト
- Rethinking Adversarial Inverse Reinforcement Learning: Policy Imitation, Transferable Reward Recovery and Algebraic Equilibrium Proof [7.000047187877612]
副次逆強化学習(AIRL)は模倣学習における基礎的なアプローチであるが、先行研究からの批判に直面している。
本研究では,ソフトアクター・クリティック(SAC)による組込みアルゴリズムの置き換えにより,ポリシー模倣の効率が著しく向上することを示す。
SACは実際、政策模倣の大幅な改善を示すが、転送可能な報酬回復の欠点をもたらす。
論文 参考訳(メタデータ) (2024-03-21T17:48:38Z) - Decision-Aware Actor-Critic with Function Approximation and Theoretical
Guarantees [12.259191000019033]
アクター・クリティック(AC)法は強化学習(RL)に広く用いられている
我々は、俳優と批評家を意思決定で訓練するための共同目標を設計する。
簡単なRL問題に対する意思決定対応型アクター批判フレームワークの利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-24T15:34:21Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Actor-Director-Critic: A Novel Deep Reinforcement Learning Framework [2.6477113498726244]
深層強化学習のための新しい枠組みであるアクター・ディレクタ・クリティカルを提案する。
使用した2つの批評家ネットワークに対して、1つではなく2つの批評家ネットワークを設計する。
アクター・ディレクタ・クリティック・フレームワークの性能検証と改良された2重推定器法をTD3アルゴリズムに適用した。
論文 参考訳(メタデータ) (2023-01-10T10:21:32Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms [81.01917016753644]
本稿では,表現学習の観点からアクタ・クリティカルなアルゴリズムの実装における割引ミスマッチについて検討する。
理論的には、アクター批判アルゴリズムは通常、アクターと批評家の両方に対して割引される。
しかし、専門家は通常、ディスカウントされた批評家を使用しながら、俳優の割引(ガンマt$)を無視する。
論文 参考訳(メタデータ) (2020-10-02T15:51:48Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文 参考訳(メタデータ) (2020-06-19T22:52:43Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z) - Online Meta-Critic Learning for Off-Policy Actor-Critic Methods [107.98781730288897]
Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。
本稿では,学習過程を観察し,アクターにさらなる損失を与える新しい,フレキシブルなメタクリティカルを導入する。
論文 参考訳(メタデータ) (2020-03-11T14:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。