論文の概要: Distributionally Robust Self Paced Curriculum Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.05694v1
- Date: Fri, 07 Nov 2025 20:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.532639
- Title: Distributionally Robust Self Paced Curriculum Reinforcement Learning
- Title(参考訳): 分散ロバスト自己ペーストカリキュラム強化学習
- Authors: Anirudh Satheesh, Keenan Powell, Vaneet Aggarwal,
- Abstract要約: 分散ロバストな自己適用型カリキュラム強化学習(DR-SPCRL)を提案する。
DR-SPCRLはエージェントの進捗に応じてロバストネス予算を適応的にスケジュールし、名目とロバストパフォーマンスのバランスを可能にする。
固定または$のスケジューリング戦略と比較して、様々な摂動の下で、平均11.8%のエピソードリターンを達成している。
- 参考スコア(独自算出の注目度): 42.51809641161819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central challenge in reinforcement learning is that policies trained in controlled environments often fail under distribution shifts at deployment into real-world environments. Distributionally Robust Reinforcement Learning (DRRL) addresses this by optimizing for worst-case performance within an uncertainty set defined by a robustness budget $\epsilon$. However, fixing $\epsilon$ results in a tradeoff between performance and robustness: small values yield high nominal performance but weak robustness, while large values can result in instability and overly conservative policies. We propose Distributionally Robust Self-Paced Curriculum Reinforcement Learning (DR-SPCRL), a method that overcomes this limitation by treating $\epsilon$ as a continuous curriculum. DR-SPCRL adaptively schedules the robustness budget according to the agent's progress, enabling a balance between nominal and robust performance. Empirical results across multiple environments demonstrate that DR-SPCRL not only stabilizes training but also achieves a superior robustness-performance trade-off, yielding an average 11.8\% increase in episodic return under varying perturbations compared to fixed or heuristic scheduling strategies, and achieving approximately 1.9$\times$ the performance of the corresponding nominal RL algorithms.
- Abstract(参考訳): 強化学習における中心的な課題は、実環境への展開において、制御された環境で訓練されたポリシーが分散シフトの下で失敗することが多いことである。
分散ロバスト強化学習(DRRL)は、ロバストネス予算$\epsilon$で定義された不確実性セット内で最悪のパフォーマンスを最適化することで、この問題に対処する。
しかし、$\epsilon$の固定は、パフォーマンスとロバスト性の間のトレードオフをもたらす: 小さな値は、高い名目的なパフォーマンスと弱いロバスト性をもたらすが、大きな値は不安定性と過度に保守的なポリシーをもたらす。
本研究では,この制限を克服する手法として,分散ロバストな自己適用型カリキュラム強化学習(DR-SPCRL)を提案する。
DR-SPCRLはエージェントの進捗に応じてロバストネス予算を適応的にスケジュールし、名目とロバストパフォーマンスのバランスを可能にする。
複数の環境にまたがる実験結果から,DR-SPCRLはトレーニングを安定させるだけでなく,高いロバスト性・トレードオフを達成でき,固定的あるいはヒューリスティックなスケジューリング戦略と比較して,様々な摂動条件下でのエピソジックリターンが平均11.8\%増加し,対応する名目RLアルゴリズムの性能に対して約1.9$\timesを達成できることがわかった。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。
下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。
上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文 参考訳(メタデータ) (2025-10-13T20:05:34Z) - Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty [21.542065840791683]
深層強化学習(英語版)(RL)は大きな成功を収めているが、実世界のシナリオにおけるその応用は、環境の不確実性に対する堅牢性の欠如によってしばしば妨げられている。
本研究では,最新技術であるSoft Actor-Critic(SAC)アルゴリズムのロバスト性を高めるために,分散ロバストなSoft Actor-Critic(DR-SAC)を提案する。
論文 参考訳(メタデータ) (2025-06-14T20:36:44Z) - Improve Robustness of Reinforcement Learning against Observation
Perturbations via $l_\infty$ Lipschitz Policy Networks [8.39061976254379]
深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて顕著な進歩を遂げた。
近年の研究では、DRL剤は観測のわずかな摂動に影響を受けやすいことが判明している。
本稿では、観測摂動に対するDRLポリシーの堅牢性を改善するため、SrtRLと呼ばれる新しい頑健な強化学習法を提案する。
論文 参考訳(メタデータ) (2023-12-14T08:57:22Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。