論文の概要: SafeOR-Gym: A Benchmark Suite for Safe Reinforcement Learning Algorithms on Practical Operations Research Problems
- arxiv url: http://arxiv.org/abs/2506.02255v1
- Date: Mon, 02 Jun 2025 20:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.078998
- Title: SafeOR-Gym: A Benchmark Suite for Safe Reinforcement Learning Algorithms on Practical Operations Research Problems
- Title(参考訳): SafeOR-Gym: 安全な強化学習アルゴリズムのためのベンチマークスイート
- Authors: Asha Ramanujam, Adam Elyoumi, Hao Chen, Sai Madhukiran Kompalli, Akshdeep Singh Ahluwalia, Shraman Pal, Dimitri J. Papageorgiou, Can Li,
- Abstract要約: SafeOR-Gymは、複雑な制約下での安全なRLに適した、9つのオペレーションリサーチ(OR)環境のベンチマークスイートである。
各環境は、コストベースの制約違反によって特徴づけられる現実的な計画、スケジューリング、制御の問題を捉えます。
我々はこれらの環境にまたがって、最先端の安全RLアルゴリズムをいくつか評価し、幅広い性能を明らかにした。
- 参考スコア(独自算出の注目度): 6.009359914477515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing safe reinforcement learning (RL) benchmarks focus on robotics and control tasks, offering limited relevance to high-stakes domains that involve structured constraints, mixed-integer decisions, and industrial complexity. This gap hinders the advancement and deployment of safe RL in critical areas such as energy systems, manufacturing, and supply chains. To address this limitation, we present SafeOR-Gym, a benchmark suite of nine operations research (OR) environments tailored for safe RL under complex constraints. Each environment captures a realistic planning, scheduling, or control problems characterized by cost-based constraint violations, planning horizons, and hybrid discrete-continuous action spaces. The suite integrates seamlessly with the Constrained Markov Decision Process (CMDP) interface provided by OmniSafe. We evaluate several state-of-the-art safe RL algorithms across these environments, revealing a wide range of performance: while some tasks are tractable, others expose fundamental limitations in current approaches. SafeOR-Gym provides a challenging and practical testbed that aims to catalyze future research in safe RL for real-world decision-making problems. The SafeOR-Gym framework and all accompanying code are available at: https://github.com/li-group/SafeOR-Gym.
- Abstract(参考訳): 既存の安全強化学習(RL)ベンチマークはロボット工学と制御タスクに重点を置いており、構造化された制約、混合整数決定、工業的複雑さを含む高い領域との関連性に限られている。
このギャップは、エネルギーシステム、製造、サプライチェーンといった重要な領域における安全なRLの進歩と展開を妨げる。
この制限に対処するため、複雑な制約の下で安全なRLに適した9つのオペレーションリサーチ(OR)環境のベンチマークスイートであるSafeOR-Gymを提示する。
各環境は、コストベースの制約違反、計画的地平線、ハイブリッド離散連続行動空間によって特徴づけられる現実的な計画、スケジューリング、制御の問題を捉えている。
このスイートは,OmniSafe が提供する Constrained Markov Decision Process (CMDP) インターフェースとシームレスに統合される。
我々は、これらの環境にまたがって、最先端の安全なRLアルゴリズムをいくつか評価し、幅広い性能を明らかにした。
SafeOR-Gymは、現実世界の意思決定問題に対する安全なRLで将来の研究を触媒することを目的とした、挑戦的で実用的なテストベッドを提供する。
SafeOR-Gymフレームワークと関連するコードはすべて、https://github.com/li-group/SafeOR-Gym.comで入手できる。
関連論文リスト
- Safe Exploration in Reinforcement Learning: A Generalized Formulation
and Algorithms [8.789204441461678]
本稿では,安全な探査のためのメタアルゴリズムであるMASEの形で,安全な探査(GSE)問題の解を提案する。
提案アルゴリズムは,グリッドワールドおよびセーフティガイムベンチマークにおける最先端アルゴリズムよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-10-05T00:47:09Z) - GUARD: A Safe Reinforcement Learning Benchmark [11.887626936994883]
一般化SAfe強化学習開発ベンチマーク
GUARDは、さまざまなRLエージェント、タスク、安全制約仕様を備えた一般化されたベンチマークである。
本稿では,GUARDを用いた各種タスク設定における最先端安全RLアルゴリズムの比較を行い,今後の作業が構築できるベースラインを確立する。
論文 参考訳(メタデータ) (2023-05-23T04:40:29Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Near-Optimal Multi-Agent Learning for Safe Coverage Control [76.99020416197631]
マルチエージェントのカバレッジ制御問題では、エージェントは環境をナビゲートして、ある密度のカバレッジを最大化する位置に到達する。
本稿では,エージェントの安全性を保ちながら,その密度を効率よく学習し,カバレッジ問題を概ね解決することを目的とする。
まず、安全を確実に保証しながら、有限時間で最適範囲に近づいた結果を挙げる。
論文 参考訳(メタデータ) (2022-10-12T16:33:34Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。