論文の概要: DSAC-T: Distributional Soft Actor-Critic with Three Refinements
- arxiv url: http://arxiv.org/abs/2310.05858v4
- Date: Thu, 28 Dec 2023 14:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 22:12:39.087949
- Title: DSAC-T: Distributional Soft Actor-Critic with Three Refinements
- Title(参考訳): DSAC-T:3つのリファインメントを持つ分布型ソフトアクター臨界
- Authors: Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, and Shengbo
Eben Li
- Abstract要約: 分散ソフトアクター批判 (DSAC) と呼ばれる非政治的RLアルゴリズムを導入する。
標準DSACには、時折不安定な学習プロセスやタスク固有の報酬スケーリングの必要性など、独自の欠点がある。
本稿では,これらの問題点に対処するため,標準DSACに3つの重要な改良点を紹介する。
- 参考スコア(独自算出の注目度): 31.590177154247485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has proven to be highly effective in tackling
complex decision-making and control tasks. However, prevalent model-free RL
methods often face severe performance degradation due to the well-known
overestimation issue. In response to this problem, we recently introduced an
off-policy RL algorithm, called distributional soft actor-critic (DSAC or
DSAC-v1), which can effectively improve the value estimation accuracy by
learning a continuous Gaussian value distribution. Nonetheless, standard DSAC
has its own shortcomings, including occasionally unstable learning processes
and the necessity for task-specific reward scaling, which may hinder its
overall performance and adaptability in some special tasks. This paper further
introduces three important refinements to standard DSAC in order to address
these shortcomings. These refinements consist of expected value substituting,
twin value distribution learning, and variance-based critic gradient adjusting.
The modified RL algorithm is named as DSAC with three refinements (DSAC-T or
DSAC-v2), and its performances are systematically evaluated on a diverse set of
benchmark tasks. Without any task-specific hyperparameter tuning, DSAC-T
surpasses or matches a lot of mainstream model-free RL algorithms, including
SAC, TD3, DDPG, TRPO, and PPO, in all tested environments. Additionally,
DSAC-T, unlike its standard version, ensures a highly stable learning process
and delivers similar performance across varying reward scales.
- Abstract(参考訳): 強化学習(rl)は複雑な意思決定と制御タスクに取り組むのに非常に効果的であることが証明されている。
しかし、一般的なモデルなしRL法は、よく知られた過大評価問題のために、しばしば深刻な性能劣化に直面している。
そこで,我々は最近,分散型ソフトアクタ-クリティック(dsac,dsac-v1)と呼ばれるオフポリシーrlアルゴリズムを導入し,連続ガウス値分布を学習することにより,値推定精度を効果的に向上させた。
それにもかかわらず、標準的なDSACには、時折不安定な学習プロセスやタスク固有の報酬スケーリングの必要性など、独自の欠点がある。
本稿では,これらの問題点に対処するため,標準DSACに3つの重要な改良点を紹介する。
これらの改善は、期待値置換、双対値分布学習、分散に基づく批判勾配調整からなる。
改良された RL アルゴリズムは 3 つの改良 (DSAC-T または DSAC-v2) を持つ DSAC と命名され、その性能は様々なベンチマークタスクで体系的に評価される。
タスク固有のハイパーパラメータチューニングがなければ、DSAC-Tはテスト対象のすべての環境で、SAC、TD3、DDPG、TRPO、PPOを含む多くの主流モデルなしRLアルゴリズムに匹敵する。
さらに、DSAC-Tは標準的なバージョンとは異なり、高度に安定した学習プロセスを確保し、様々な報酬スケールで同様のパフォーマンスを提供する。
関連論文リスト
- Adversarially Trained Weighted Actor-Critic for Safe Offline Reinforcement Learning [9.94248417157713]
機能近似に基づく安全オフライン強化学習(RL)のための新しいアルゴリズムであるWSACを提案する。
WSACは2人プレイのStackelbergゲームとして設計され、洗練された目的関数を最適化する。
論文 参考訳(メタデータ) (2024-01-01T01:44:58Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Deep Reinforcement Learning-based UAV Navigation and Control: A Soft
Actor-Critic with Hindsight Experience Replay Approach [0.9137554315375919]
深部強化学習 (DRL) アルゴリズムのクラスとして, 後視体験リプレイ (HER) を用いたSACHER (Software actor-critic, SAC) を提案する。
HERはSACのサンプル効率を向上するため,SACHERはSACよりも高速かつ高精度に最適な結果が得られることを示す。
無人航空機(UAV)の航法・制御問題にSACHERを適用し,SACHERが最適航法経路を生成する。
論文 参考訳(メタデータ) (2021-06-02T08:30:14Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z) - OPAC: Opportunistic Actor-Critic [0.0]
Opportunistic Actor-Critic (OPAC) は、より優れた探索ポリシーとより分散の少ないモデルのないディープRLアルゴリズムである。
OPACは、TD3とSACの最も強力な機能を組み合わせて、政治以外の方法でポリシーを最適化することを目指している。
論文 参考訳(メタデータ) (2020-12-11T18:33:35Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - DSAC: Distributional Soft Actor Critic for Risk-Sensitive Reinforcement
Learning [21.75934236018373]
分散ソフトアクター批判(DSAC)と呼ばれる新しい強化学習アルゴリズムを提案する。
DSACは、蓄積された報酬の分配情報を利用して、より良いパフォーマンスを実現する。
本実験は,RLにおける分布モデルを用いて,リスク逆制御とリスク探索制御の両方において,エージェントがより優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-30T02:23:15Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。