論文の概要: Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark
- arxiv url: http://arxiv.org/abs/2310.12567v2
- Date: Tue, 7 Nov 2023 02:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 18:53:28.910430
- Title: Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark
- Title(参考訳): safety-gymnasium - 統合型安全強化学習ベンチマーク
- Authors: Jiaming Ji, Borong Zhang, Jiayi Zhou, Xuehai Pan, Weidong Huang,
Ruiyang Sun, Yiran Geng, Yifan Zhong, Juntao Dai, Yaodong Yang
- Abstract要約: 本稿では,単一エージェントとマルチエージェントの両方のシナリオにおいて,安全クリティカルなタスクを含む環境スイートであるSafety-Gymnasiumを提案する。
Safe Policy Optimization (SafePO) という,最先端のSafeRLアルゴリズム16種からなるアルゴリズムのライブラリを提供する。
- 参考スコア(独自算出の注目度): 13.082034905010286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence (AI) systems possess significant potential to drive
societal progress. However, their deployment often faces obstacles due to
substantial safety concerns. Safe reinforcement learning (SafeRL) emerges as a
solution to optimize policies while simultaneously adhering to multiple
constraints, thereby addressing the challenge of integrating reinforcement
learning in safety-critical scenarios. In this paper, we present an environment
suite called Safety-Gymnasium, which encompasses safety-critical tasks in both
single and multi-agent scenarios, accepting vector and vision-only input.
Additionally, we offer a library of algorithms named Safe Policy Optimization
(SafePO), comprising 16 state-of-the-art SafeRL algorithms. This comprehensive
library can serve as a validation tool for the research community. By
introducing this benchmark, we aim to facilitate the evaluation and comparison
of safety performance, thus fostering the development of reinforcement learning
for safer, more reliable, and responsible real-world applications. The website
of this project can be accessed at
https://sites.google.com/view/safety-gymnasium.
- Abstract(参考訳): 人工知能(AI)システムは、社会の進歩を促進する大きな可能性を秘めている。
しかし、その配置は重大な安全上の懸念からしばしば障害に直面している。
安全強化学習(SafeRL)は、複数の制約を同時に遵守しながらポリシーを最適化するソリューションとして登場し、安全クリティカルなシナリオにおける強化学習の統合という課題に対処する。
本稿では,ベクトルと視覚のみの入力を受け付け,単一のシナリオとマルチエージェントシナリオの両方において安全クリティカルなタスクを含む,セーフティ・ジムナシウムという環境スイートを提案する。
さらに, セーフポリシー最適化 (SafePO) と呼ばれるアルゴリズムのライブラリを提供し, 最先端のSafeRLアルゴリズムを16種類提供している。
この総合的なライブラリは、研究コミュニティのバリデーションツールとして機能する。
このベンチマークを導入することで、安全性能の評価と比較が容易になり、より安全で信頼性が高く、責任のある実世界のアプリケーションのための強化学習の開発が促進される。
プロジェクトのwebサイトはhttps://sites.google.com/view/safety-gymnasiumでアクセスできる。
関連論文リスト
- The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safe Reinforcement Learning in a Simulated Robotic Arm [0.0]
強化学習(RL)エージェントは、最適なポリシーを学ぶために環境を探索する必要がある。
本稿では,Pandaロボットアームを用いたカスタマイズ環境を構築することにより,安全なRLアルゴリズムの適用性を向上させる。
論文 参考訳(メタデータ) (2023-11-28T19:22:16Z) - OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning
Research [3.0536277689386453]
SafeRL研究の迅速化を目的とした基礎的枠組みを提案する。
我々のフレームワークは、異なるRLドメインにまたがるアルゴリズムの配列を含み、安全要素に重点を置いている。
論文 参考訳(メタデータ) (2023-05-16T09:22:14Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees [7.6347172725540995]
安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用する上で依然として課題である。
我々は,現実のギャップを,確率的に保証された安全対応政策分布で埋めるべく,Sim-to-Lab-to-Realを提案する。
論文 参考訳(メタデータ) (2022-01-20T18:41:01Z) - Improving Safety in Deep Reinforcement Learning using Unsupervised
Action Planning [4.2955354157580325]
深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。
そこで本稿では,オンライン強化学習アルゴリズムの安全性を向上させるために,教師なし行動計画の新たな手法を提案する。
提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬を得られることを示す。
論文 参考訳(メタデータ) (2021-09-29T10:26:29Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。