論文の概要: DSAC-T: Distributional Soft Actor-Critic with Three Refinements
- arxiv url: http://arxiv.org/abs/2310.05858v4
- Date: Thu, 28 Dec 2023 14:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 22:12:39.087949
- Title: DSAC-T: Distributional Soft Actor-Critic with Three Refinements
- Title(参考訳): DSAC-T:3つのリファインメントを持つ分布型ソフトアクター臨界
- Authors: Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, and Shengbo
Eben Li
- Abstract要約: 分散ソフトアクター批判 (DSAC) と呼ばれる非政治的RLアルゴリズムを導入する。
標準DSACには、時折不安定な学習プロセスやタスク固有の報酬スケーリングの必要性など、独自の欠点がある。
本稿では,これらの問題点に対処するため,標準DSACに3つの重要な改良点を紹介する。
- 参考スコア(独自算出の注目度): 31.590177154247485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has proven to be highly effective in tackling
complex decision-making and control tasks. However, prevalent model-free RL
methods often face severe performance degradation due to the well-known
overestimation issue. In response to this problem, we recently introduced an
off-policy RL algorithm, called distributional soft actor-critic (DSAC or
DSAC-v1), which can effectively improve the value estimation accuracy by
learning a continuous Gaussian value distribution. Nonetheless, standard DSAC
has its own shortcomings, including occasionally unstable learning processes
and the necessity for task-specific reward scaling, which may hinder its
overall performance and adaptability in some special tasks. This paper further
introduces three important refinements to standard DSAC in order to address
these shortcomings. These refinements consist of expected value substituting,
twin value distribution learning, and variance-based critic gradient adjusting.
The modified RL algorithm is named as DSAC with three refinements (DSAC-T or
DSAC-v2), and its performances are systematically evaluated on a diverse set of
benchmark tasks. Without any task-specific hyperparameter tuning, DSAC-T
surpasses or matches a lot of mainstream model-free RL algorithms, including
SAC, TD3, DDPG, TRPO, and PPO, in all tested environments. Additionally,
DSAC-T, unlike its standard version, ensures a highly stable learning process
and delivers similar performance across varying reward scales.
- Abstract(参考訳): 強化学習(rl)は複雑な意思決定と制御タスクに取り組むのに非常に効果的であることが証明されている。
しかし、一般的なモデルなしRL法は、よく知られた過大評価問題のために、しばしば深刻な性能劣化に直面している。
そこで,我々は最近,分散型ソフトアクタ-クリティック(dsac,dsac-v1)と呼ばれるオフポリシーrlアルゴリズムを導入し,連続ガウス値分布を学習することにより,値推定精度を効果的に向上させた。
それにもかかわらず、標準的なDSACには、時折不安定な学習プロセスやタスク固有の報酬スケーリングの必要性など、独自の欠点がある。
本稿では,これらの問題点に対処するため,標準DSACに3つの重要な改良点を紹介する。
これらの改善は、期待値置換、双対値分布学習、分散に基づく批判勾配調整からなる。
改良された RL アルゴリズムは 3 つの改良 (DSAC-T または DSAC-v2) を持つ DSAC と命名され、その性能は様々なベンチマークタスクで体系的に評価される。
タスク固有のハイパーパラメータチューニングがなければ、DSAC-Tはテスト対象のすべての環境で、SAC、TD3、DDPG、TRPO、PPOを含む多くの主流モデルなしRLアルゴリズムに匹敵する。
さらに、DSAC-Tは標準的なバージョンとは異なり、高度に安定した学習プロセスを確保し、様々な報酬スケールで同様のパフォーマンスを提供する。
関連論文リスト
- Adviser-Actor-Critic: Eliminating Steady-State Error in Reinforcement Learning Control [5.467233817126651]
精度制御ジレンマに対処するために設計されたアドバイザ・アクター・クライブ(AAC)を導入する。
AACは、俳優にコントロールアクションを洗練させ、それによってゴール達成の精度を高めるアドバイザーを特徴とする。
AACは精度クリティカルでゴール条件付きタスクにおいて標準のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2025-02-04T12:26:47Z) - Langevin Soft Actor-Critic: Efficient Exploration through Uncertainty-Driven Critic Learning [33.42657871152637]
Langevin Soft Actor Critic (LSAC) は、政策最適化に対する不確実性推定による批判的学習の強化を優先している。
LSACは、連続制御タスクのための主流モデルフリーなRLアルゴリズムの性能より優れているか、あるいは劣っている。
特にLSACは、連続的なアクション空間を持つ連続制御タスクにおけるLCCベースのトンプソンサンプリングの最初の成功例である。
論文 参考訳(メタデータ) (2025-01-29T18:18:00Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - Balancing Value Underestimation and Overestimation with Realistic
Actor-Critic [6.205681604290727]
本稿では,新しいモデルフリーアルゴリズムであるRealistic Actor-Critic(RAC)を提案する。
RACはUniversal Value Function Approximator (UVFA)を使用して、同じニューラルネットワークを持つポリシーファミリを同時に学習する。
我々は,MuJoCoベンチマークでRACを評価し,最も困難なHumanoid環境において,SACと比較して10倍のサンプル効率と25%の性能向上を実現した。
論文 参考訳(メタデータ) (2021-10-19T03:35:01Z) - OPAC: Opportunistic Actor-Critic [0.0]
Opportunistic Actor-Critic (OPAC) は、より優れた探索ポリシーとより分散の少ないモデルのないディープRLアルゴリズムである。
OPACは、TD3とSACの最も強力な機能を組み合わせて、政治以外の方法でポリシーを最適化することを目指している。
論文 参考訳(メタデータ) (2020-12-11T18:33:35Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。