論文の概要: OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning
Research
- arxiv url: http://arxiv.org/abs/2305.09304v1
- Date: Tue, 16 May 2023 09:22:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 15:37:01.958260
- Title: OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning
Research
- Title(参考訳): OmniSafe: 安全な強化学習研究を加速するためのインフラストラクチャ
- Authors: Jiaming Ji, Jiayi Zhou, Borong Zhang, Juntao Dai, Xuehai Pan, Ruiyang
Sun, Weidong Huang, Yiran Geng, Mickel Liu, Yaodong Yang
- Abstract要約: SafeRL研究の迅速化を目的とした基礎的枠組みを提案する。
我々のフレームワークは、異なるRLドメインにまたがるアルゴリズムの配列を含み、安全要素に重点を置いている。
- 参考スコア(独自算出の注目度): 3.0536277689386453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI systems empowered by reinforcement learning (RL) algorithms harbor the
immense potential to catalyze societal advancement, yet their deployment is
often impeded by significant safety concerns. Particularly in safety-critical
applications, researchers have raised concerns about unintended harms or unsafe
behaviors of unaligned RL agents. The philosophy of safe reinforcement learning
(SafeRL) is to align RL agents with harmless intentions and safe behavioral
patterns. In SafeRL, agents learn to develop optimal policies by receiving
feedback from the environment, while also fulfilling the requirement of
minimizing the risk of unintended harm or unsafe behavior. However, due to the
intricate nature of SafeRL algorithm implementation, combining methodologies
across various domains presents a formidable challenge. This had led to an
absence of a cohesive and efficacious learning framework within the
contemporary SafeRL research milieu. In this work, we introduce a foundational
framework designed to expedite SafeRL research endeavors. Our comprehensive
framework encompasses an array of algorithms spanning different RL domains and
places heavy emphasis on safety elements. Our efforts are to make the
SafeRL-related research process more streamlined and efficient, therefore
facilitating further research in AI safety. Our project is released at:
https://github.com/PKU-Alignment/omnisafe.
- Abstract(参考訳): 強化学習(RL)アルゴリズムによって強化されたAIシステムは、社会的進歩を触媒する大きな可能性を秘めている。
特に安全クリティカルな応用において、研究者は意図しない害やRLエージェントの安全でない行動に対する懸念を提起している。
安全強化学習(SafeRL)の哲学は、RLエージェントを無害な意図と安全な行動パターンに合わせることである。
SafeRLでは、エージェントは環境からのフィードバックを受けながら、意図しない害や安全でない行動のリスクを最小限に抑えながら、最適なポリシーを開発することを学ぶ。
しかし、SafeRLアルゴリズムの実装の複雑な性質のため、様々な領域にまたがる方法論を組み合わせることは、非常に難しい課題である。
これにより、現代の安全研究milieuには、凝集と効率のよい学習フレームワークが欠如した。
本研究では,SafeRL研究の迅速化を目的とした基礎的枠組みを提案する。
我々の包括的なフレームワークは、異なるRLドメインにまたがるアルゴリズムの配列を含み、安全要素に重点を置いています。
我々の取り組みは、SafeRL関連の研究プロセスをより合理化し、効率的にすることで、AIの安全性に関するさらなる研究を促進することです。
私たちのプロジェクトは、https://github.com/pku-alignment/omnisafeでリリースされています。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark [12.660770759420286]
本稿では,単一エージェントとマルチエージェントの両方のシナリオにおいて,安全クリティカルなタスクを含む環境スイートであるSafety-Gymnasiumを提案する。
Safe Policy Optimization (SafePO) という,最先端のSafeRLアルゴリズム16種からなるアルゴリズムのライブラリを提供する。
論文 参考訳(メタデータ) (2023-10-19T08:19:28Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Safe and Sample-efficient Reinforcement Learning for Clustered Dynamic
Environments [4.111899441919165]
本研究は,2つの課題に対処する安全かつサンプル効率の強化学習(RL)フレームワークを提案する。
我々は、セーフセットアルゴリズム(SSA)を用いて、名目制御の監視と修正を行い、クラスタリングされた動的環境におけるSSA+RLの評価を行う。
我々のフレームワークは、トレーニング中の他の安全なRL手法と比較して安全性が向上し、エピソードが大幅に少ないタスクを解決できる。
論文 参考訳(メタデータ) (2023-03-24T20:29:17Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - SafeRL-Kit: Evaluating Efficient Reinforcement Learning Methods for Safe
Autonomous Driving [12.925039760573092]
我々はSafeRL-Kitをリリースし、自動運転タスクのための安全なRLメソッドをベンチマークする。
SafeRL-Kitには、セーフ・レイヤ、リカバリ・RL、オフ・ポリティ・ラグランジアン・メソッド、Fasible Actor-Criticなど、ゼロ制約違反タスクに特化した最新のアルゴリズムがいくつか含まれている。
我々は、SafeRL-Kitで上記のアルゴリズムの比較評価を行い、安全自動運転の有効性について光を当てた。
論文 参考訳(メタデータ) (2022-06-17T03:23:51Z) - A Review of Safe Reinforcement Learning: Methods, Theory and Applications [15.450066275233008]
我々は,手法,理論,応用の観点から,安全なRLのレビューを行う。
我々は、安全なRLを現実世界のアプリケーションにデプロイする上で、"2H3W"とよばれる5つの重要な問題を思いついた。
論文 参考訳(メタデータ) (2022-05-20T17:42:38Z) - Safe Reinforcement Learning Using Robust Action Governor [6.833157102376731]
Reinforcement Learning(RL)は、基本的に試行錯誤学習の手順であり、探索と探索プロセス中に安全でない行動を引き起こす可能性があります。
本論文では, RLアルゴリズムとアドオン安全監視モジュールの統合に基づく安全RLの枠組みについて紹介する。
自動車用アダプティブクルーズ制御への適用を通じて,提案された安全RLフレームワークを例示する。
論文 参考訳(メタデータ) (2021-02-21T16:50:17Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。