論文の概要: DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty
- arxiv url: http://arxiv.org/abs/2506.12622v1
- Date: Sat, 14 Jun 2025 20:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.591902
- Title: DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty
- Title(参考訳): DR-SAC:不確実性下での強化学習のための分散ロバストなソフトアクタークリティカル
- Authors: Mingxuan Cui, Duo Zhou, Yuxuan Han, Grani A. Hanasusanto, Qiong Wang, Huan Zhang, Zhengyuan Zhou,
- Abstract要約: 深層強化学習(英語版)(RL)は大きな成功を収めているが、実世界のシナリオにおけるその応用は、環境の不確実性に対する堅牢性の欠如によってしばしば妨げられている。
本研究では,最新技術であるSoft Actor-Critic(SAC)アルゴリズムのロバスト性を高めるために,分散ロバストなSoft Actor-Critic(DR-SAC)を提案する。
- 参考スコア(独自算出の注目度): 21.542065840791683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) has achieved significant success, yet its application in real-world scenarios is often hindered by a lack of robustness to environmental uncertainties. To solve this challenge, some robust RL algorithms have been proposed, but most are limited to tabular settings. In this work, we propose Distributionally Robust Soft Actor-Critic (DR-SAC), a novel algorithm designed to enhance the robustness of the state-of-the-art Soft Actor-Critic (SAC) algorithm. DR-SAC aims to maximize the expected value with entropy against the worst possible transition model lying in an uncertainty set. A distributionally robust version of the soft policy iteration is derived with a convergence guarantee. For settings where nominal distributions are unknown, such as offline RL, a generative modeling approach is proposed to estimate the required nominal distributions from data. Furthermore, experimental results on a range of continuous control benchmark tasks demonstrate our algorithm achieves up to $9.8$ times the average reward of the SAC baseline under common perturbations. Additionally, compared with existing robust reinforcement learning algorithms, DR-SAC significantly improves computing efficiency and applicability to large-scale problems.
- Abstract(参考訳): 深層強化学習(英語版)(RL)は大きな成功を収めているが、実世界のシナリオにおけるその応用は、環境の不確実性に対する堅牢性の欠如によってしばしば妨げられている。
この問題を解決するために、いくつかの堅牢なRLアルゴリズムが提案されているが、そのほとんどは表の設定に限られている。
本研究では,最新技術であるSoft Actor-Critic(SAC)アルゴリズムのロバスト性を高めるために,分散ロバストなSoft Actor-Critic(DR-SAC)を提案する。
DR-SACは、不確実なセットにある最悪の遷移モデルに対するエントロピーによる期待値の最大化を目的としている。
ソフトポリシー反復の分布的に堅牢なバージョンは収束保証によって導出される。
オフラインのRLのような名目分布が不明な設定では、データから要求される名目分布を推定するために生成的モデリング手法が提案される。
さらに、一連の連続制御ベンチマークタスクの実験結果により、我々のアルゴリズムは共通の摂動下でのSACベースラインの平均報酬の最大9.8ドルを達成できることを示した。
さらに、既存の堅牢な強化学習アルゴリズムと比較して、DR-SACは大規模問題に対する計算効率と適用性を大幅に改善する。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Distributional Soft Actor-Critic with Three Refinements [47.46661939652862]
強化学習(Reinforcement Learning, RL)は、複雑な意思決定と制御タスクの解決に顕著な成功を収めた。
多くのモデルなしRLアルゴリズムは、不正確な値推定による性能劣化を経験する。
本稿では,これらの制限を克服し,Q値推定精度を向上させるために,DSACv1に3つの重要な改良点を導入する。
論文 参考訳(メタデータ) (2023-10-09T16:52:48Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。