論文の概要: DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty
- arxiv url: http://arxiv.org/abs/2506.12622v1
- Date: Sat, 14 Jun 2025 20:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.591902
- Title: DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty
- Title(参考訳): DR-SAC:不確実性下での強化学習のための分散ロバストなソフトアクタークリティカル
- Authors: Mingxuan Cui, Duo Zhou, Yuxuan Han, Grani A. Hanasusanto, Qiong Wang, Huan Zhang, Zhengyuan Zhou,
- Abstract要約: 深層強化学習(英語版)(RL)は大きな成功を収めているが、実世界のシナリオにおけるその応用は、環境の不確実性に対する堅牢性の欠如によってしばしば妨げられている。
本研究では,最新技術であるSoft Actor-Critic(SAC)アルゴリズムのロバスト性を高めるために,分散ロバストなSoft Actor-Critic(DR-SAC)を提案する。
- 参考スコア(独自算出の注目度): 21.542065840791683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) has achieved significant success, yet its application in real-world scenarios is often hindered by a lack of robustness to environmental uncertainties. To solve this challenge, some robust RL algorithms have been proposed, but most are limited to tabular settings. In this work, we propose Distributionally Robust Soft Actor-Critic (DR-SAC), a novel algorithm designed to enhance the robustness of the state-of-the-art Soft Actor-Critic (SAC) algorithm. DR-SAC aims to maximize the expected value with entropy against the worst possible transition model lying in an uncertainty set. A distributionally robust version of the soft policy iteration is derived with a convergence guarantee. For settings where nominal distributions are unknown, such as offline RL, a generative modeling approach is proposed to estimate the required nominal distributions from data. Furthermore, experimental results on a range of continuous control benchmark tasks demonstrate our algorithm achieves up to $9.8$ times the average reward of the SAC baseline under common perturbations. Additionally, compared with existing robust reinforcement learning algorithms, DR-SAC significantly improves computing efficiency and applicability to large-scale problems.
- Abstract(参考訳): 深層強化学習(英語版)(RL)は大きな成功を収めているが、実世界のシナリオにおけるその応用は、環境の不確実性に対する堅牢性の欠如によってしばしば妨げられている。
この問題を解決するために、いくつかの堅牢なRLアルゴリズムが提案されているが、そのほとんどは表の設定に限られている。
本研究では,最新技術であるSoft Actor-Critic(SAC)アルゴリズムのロバスト性を高めるために,分散ロバストなSoft Actor-Critic(DR-SAC)を提案する。
DR-SACは、不確実なセットにある最悪の遷移モデルに対するエントロピーによる期待値の最大化を目的としている。
ソフトポリシー反復の分布的に堅牢なバージョンは収束保証によって導出される。
オフラインのRLのような名目分布が不明な設定では、データから要求される名目分布を推定するために生成的モデリング手法が提案される。
さらに、一連の連続制御ベンチマークタスクの実験結果により、我々のアルゴリズムは共通の摂動下でのSACベースラインの平均報酬の最大9.8ドルを達成できることを示した。
さらに、既存の堅牢な強化学習アルゴリズムと比較して、DR-SACは大規模問題に対する計算効率と適用性を大幅に改善する。
関連論文リスト
- Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - DSAC-C: Constrained Maximum Entropy for Robust Discrete Soft-Actor Critic [0.20718016474717196]
本稿では,ソフトアクタ・クリティカル(SAC)アルゴリズムのファミリを新たに拡張する。
我々は、最大エントロピー原理に基づいて、サロゲート批判政策から導かれるさらなる統計的制約により、離散SACをさらに改善することができると論じる。
論文 参考訳(メタデータ) (2023-10-26T05:54:51Z) - Distributional Soft Actor-Critic with Three Refinements [47.46661939652862]
強化学習(Reinforcement Learning, RL)は、複雑な意思決定と制御タスクの解決に顕著な成功を収めた。
多くのモデルなしRLアルゴリズムは、不正確な値推定による性能劣化を経験する。
本稿では,これらの制限を克服し,Q値推定精度を向上させるために,DSACv1に3つの重要な改良点を導入する。
論文 参考訳(メタデータ) (2023-10-09T16:52:48Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - DSAC: Distributional Soft Actor-Critic for Risk-Sensitive Reinforcement Learning [25.658136792327358]
本稿では,蓄積した報酬の分布情報の強度とエントロピー駆動探索を組み合わせたDSACアルゴリズムを提案する。
DSACはアクションと報酬の両方のランダム性をモデル化し、様々な連続制御タスクのベースラインパフォーマンスを上回る。
DSACがリスクニュートラルおよびリスクセンシティブな制御タスクにおいて,エージェント性能を向上させる効果を示す実験を行った。
論文 参考訳(メタデータ) (2020-04-30T02:23:15Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。