論文の概要: Robust Gymnasium: A Unified Modular Benchmark for Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.19652v1
- Date: Thu, 27 Feb 2025 00:50:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:54:19.011681
- Title: Robust Gymnasium: A Unified Modular Benchmark for Robust Reinforcement Learning
- Title(参考訳): Robust Gymnasium:ロバスト強化学習のための統一型モジュールベンチマーク
- Authors: Shangding Gu, Laixi Shi, Muning Wen, Ming Jin, Eric Mazumdar, Yuejie Chi, Adam Wierman, Costas Spanos,
- Abstract要約: 頑健な強化学習のための統一型モジュラーベンチマークであるRobust-Gymnasiumを紹介する。
すべてのキーRLコンポーネントエージェントの観察された状態と報酬、エージェントのアクション、環境にまたがるさまざまな破壊をサポートする。
コミュニティが現在の方法を評価し、堅牢なRLアルゴリズムの開発を促進するために、オープンソースでユーザフレンドリなツールを提供する。
- 参考スコア(独自算出の注目度): 37.69701394297442
- License:
- Abstract: Driven by inherent uncertainty and the sim-to-real gap, robust reinforcement learning (RL) seeks to improve resilience against the complexity and variability in agent-environment sequential interactions. Despite the existence of a large number of RL benchmarks, there is a lack of standardized benchmarks for robust RL. Current robust RL policies often focus on a specific type of uncertainty and are evaluated in distinct, one-off environments. In this work, we introduce Robust-Gymnasium, a unified modular benchmark designed for robust RL that supports a wide variety of disruptions across all key RL components-agents' observed state and reward, agents' actions, and the environment. Offering over sixty diverse task environments spanning control and robotics, safe RL, and multi-agent RL, it provides an open-source and user-friendly tool for the community to assess current methods and foster the development of robust RL algorithms. In addition, we benchmark existing standard and robust RL algorithms within this framework, uncovering significant deficiencies in each and offering new insights.
- Abstract(参考訳): 固有不確実性とシモン・トゥ・リアルギャップによって駆動されるロバスト強化学習(RL)は、エージェント環境とシーケンシャル相互作用の複雑さと変動性に対するレジリエンスを改善することを目指している。
多数のRLベンチマークが存在するにもかかわらず、ロバストなRLのための標準ベンチマークが不足している。
現在のロバストなRLポリシーは、しばしば特定のタイプの不確実性に焦点を当て、個別のワンオフ環境で評価される。
本稿では,ロバスト・ギムナシウムについて紹介する。ロバスト・ギムナシウムはロバストなRLのために設計され,全てのキーRLコンポーネントエージェントの観測状態と報酬,エージェントの動作,環境のさまざまな破壊をサポートする。
コントロールとロボティクス、安全なRL、マルチエージェントRLにまたがる60以上の多様なタスク環境を提供し、コミュニティが現在の方法を評価し、堅牢なRLアルゴリズムの開発を促進するためのオープンソースでユーザフレンドリなツールを提供する。
さらに、このフレームワーク内の既存の標準および堅牢なRLアルゴリズムをベンチマークし、それぞれに重大な欠陥を発見し、新たな洞察を提供する。
関連論文リスト
- Distributionally Robust Constrained Reinforcement Learning under Strong Duality [37.76993170360821]
分布ロバスト制約付きRL(DRC-RL)の問題点について検討する。
目標は、環境分布の変化や制約の対象となる報酬を最大化することである。
本稿では, 第一の効率的かつ証明可能な解を可能にする, 強双対性に基づくアルゴリズムフレームワークを開発する。
論文 参考訳(メタデータ) (2024-06-22T08:51:57Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Robust Reinforcement Learning as a Stackelberg Game via
Adaptively-Regularized Adversarial Training [43.97565851415018]
ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。
既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。
RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
論文 参考訳(メタデータ) (2022-02-19T03:44:05Z) - User-Oriented Robust Reinforcement Learning [25.02456730639135]
政策学習のための新しいユーザ指向ロバストRL(UOR-RL)フレームワークを提案する。
ユーザの好みに応じて環境に異なる重みを割り当てる新しいユーザ指向ロバストネス(UOR)メトリックをRLに対して定義する。
UOR-RLトレーニングアルゴリズムは, 環境分布に関する不正確な知識や全く知識がなくても, ほぼ最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2022-02-15T10:33:55Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。