論文の概要: Distributional Soft Actor-Critic with Three Refinements
- arxiv url: http://arxiv.org/abs/2310.05858v5
- Date: Sat, 01 Feb 2025 11:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:03:07.520271
- Title: Distributional Soft Actor-Critic with Three Refinements
- Title(参考訳): 3つのリファインメントを持つ分布型ソフトアクター・クライト
- Authors: Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, Shengbo Eben Li, Chang Liu, Ya-Qin Zhang, Bo Cheng, Keqiang Li,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、複雑な意思決定と制御タスクの解決に顕著な成功を収めた。
多くのモデルなしRLアルゴリズムは、不正確な値推定による性能劣化を経験する。
本稿では,これらの制限を克服し,Q値推定精度を向上させるために,DSACv1に3つの重要な改良点を導入する。
- 参考スコア(独自算出の注目度): 47.46661939652862
- License:
- Abstract: Reinforcement learning (RL) has shown remarkable success in solving complex decision-making and control tasks. However, many model-free RL algorithms experience performance degradation due to inaccurate value estimation, particularly the overestimation of Q-values, which can lead to suboptimal policies. To address this issue, we previously proposed the Distributional Soft Actor-Critic (DSAC or DSACv1), an off-policy RL algorithm that enhances value estimation accuracy by learning a continuous Gaussian value distribution. Despite its effectiveness, DSACv1 faces challenges such as training instability and sensitivity to reward scaling, caused by high variance in critic gradients due to return randomness. In this paper, we introduce three key refinements to DSACv1 to overcome these limitations and further improve Q-value estimation accuracy: expected value substitution, twin value distribution learning, and variance-based critic gradient adjustment. The enhanced algorithm, termed DSAC with Three refinements (DSAC-T or DSACv2), is systematically evaluated across a diverse set of benchmark tasks. Without the need for task-specific hyperparameter tuning, DSAC-T consistently matches or outperforms leading model-free RL algorithms, including SAC, TD3, DDPG, TRPO, and PPO, in all tested environments. Additionally, DSAC-T ensures a stable learning process and maintains robust performance across varying reward scales. Its effectiveness is further demonstrated through real-world application in controlling a wheeled robot, highlighting its potential for deployment in practical robotic tasks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、複雑な意思決定と制御タスクの解決に顕著な成功を収めた。
しかし、多くのモデルフリーなRLアルゴリズムは、不正確な値推定、特にQ-値の過大評価による性能劣化を経験しており、これは準最適ポリシーにつながる可能性がある。
この問題に対処するために、我々は以前、連続ガウス値分布を学習することにより、値推定精度を向上させるオフポリチィRLアルゴリズムであるDSAC(DSACまたはDSACv1)を提案した。
その効果にもかかわらず、DSACv1は、リターンランダム性による批判的勾配のばらつきによって引き起こされる、トレーニング不安定性や報奨スケーリングに対する感度といった課題に直面している。
本稿では,これらの制限を克服し,Q値推定精度を向上させるために,DSACv1の3つの重要な改良点を紹介する。
DSAC-T(DSAC-TまたはDSACv2)と呼ばれる拡張アルゴリズムは、様々なベンチマークタスクに対して体系的に評価される。
タスク固有のハイパーパラメータチューニングを必要とせずに、DSAC-TはSAC、TD3、DDPG、TRPO、PPOを含むモデルなしRLアルゴリズムをテスト対象のすべての環境で一貫して一致または性能を向上させる。
さらに、DSAC-Tは安定した学習プロセスを確保し、様々な報酬スケールで堅牢なパフォーマンスを維持する。
その効果は、車輪付きのロボットを制御する現実世界の応用を通じてさらに実証され、実用的なロボットタスクへの展開の可能性を強調している。
関連論文リスト
- Adversarially Trained Weighted Actor-Critic for Safe Offline Reinforcement Learning [9.94248417157713]
機能近似に基づく安全オフライン強化学習(RL)のための新しいアルゴリズムであるWSACを提案する。
WSACは2人プレイのStackelbergゲームとして設計され、洗練された目的関数を最適化する。
論文 参考訳(メタデータ) (2024-01-01T01:44:58Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Deep Reinforcement Learning-based UAV Navigation and Control: A Soft
Actor-Critic with Hindsight Experience Replay Approach [0.9137554315375919]
深部強化学習 (DRL) アルゴリズムのクラスとして, 後視体験リプレイ (HER) を用いたSACHER (Software actor-critic, SAC) を提案する。
HERはSACのサンプル効率を向上するため,SACHERはSACよりも高速かつ高精度に最適な結果が得られることを示す。
無人航空機(UAV)の航法・制御問題にSACHERを適用し,SACHERが最適航法経路を生成する。
論文 参考訳(メタデータ) (2021-06-02T08:30:14Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z) - OPAC: Opportunistic Actor-Critic [0.0]
Opportunistic Actor-Critic (OPAC) は、より優れた探索ポリシーとより分散の少ないモデルのないディープRLアルゴリズムである。
OPACは、TD3とSACの最も強力な機能を組み合わせて、政治以外の方法でポリシーを最適化することを目指している。
論文 参考訳(メタデータ) (2020-12-11T18:33:35Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - DSAC: Distributional Soft Actor Critic for Risk-Sensitive Reinforcement
Learning [21.75934236018373]
分散ソフトアクター批判(DSAC)と呼ばれる新しい強化学習アルゴリズムを提案する。
DSACは、蓄積された報酬の分配情報を利用して、より良いパフォーマンスを実現する。
本実験は,RLにおける分布モデルを用いて,リスク逆制御とリスク探索制御の両方において,エージェントがより優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-30T02:23:15Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。