論文の概要: GUARD: A Safe Reinforcement Learning Benchmark
- arxiv url: http://arxiv.org/abs/2305.13681v4
- Date: Tue, 24 Sep 2024 02:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 15:02:22.926646
- Title: GUARD: A Safe Reinforcement Learning Benchmark
- Title(参考訳): GUARD: 安全な強化学習ベンチマーク
- Authors: Weiye Zhao, Yifan Sun, Feihan Li, Rui Chen, Ruixuan Liu, Tianhao Wei, Changliu Liu,
- Abstract要約: 一般化SAfe強化学習開発ベンチマーク
GUARDは、さまざまなRLエージェント、タスク、安全制約仕様を備えた一般化されたベンチマークである。
本稿では,GUARDを用いた各種タスク設定における最先端安全RLアルゴリズムの比較を行い,今後の作業が構築できるベースラインを確立する。
- 参考スコア(独自算出の注目度): 11.887626936994883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the trial-and-error nature, it is typically challenging to apply RL algorithms to safety-critical real-world applications, such as autonomous driving, human-robot interaction, robot manipulation, etc, where such errors are not tolerable. Recently, safe RL (i.e. constrained RL) has emerged rapidly in the literature, in which the agents explore the environment while satisfying constraints. Due to the diversity of algorithms and tasks, it remains difficult to compare existing safe RL algorithms. To fill that gap, we introduce GUARD, a Generalized Unified SAfe Reinforcement Learning Development Benchmark. GUARD has several advantages compared to existing benchmarks. First, GUARD is a generalized benchmark with a wide variety of RL agents, tasks, and safety constraint specifications. Second, GUARD comprehensively covers state-of-the-art safe RL algorithms with self-contained implementations. Third, GUARD is highly customizable in tasks and algorithms. We present a comparison of state-of-the-art safe RL algorithms in various task settings using GUARD and establish baselines that future work can build on.
- Abstract(参考訳): 試行錯誤の性質のため、そのようなエラーが許容できない自律運転、人間とロボットのインタラクション、ロボット操作など、安全クリティカルな現実世界のアプリケーションにRLアルゴリズムを適用することは、一般的に困難である。
近年、安全なRL(すなわち制約付きRL)は、制約を満たすとともに、エージェントが環境を探索する文献に急速に現れている。
アルゴリズムとタスクの多様性のため、既存の安全なRLアルゴリズムを比較するのは難しい。
このギャップを埋めるために、一般化されたSAfe強化学習ベンチマークであるGUARDを紹介します。
GUARDは既存のベンチマークと比べていくつかの利点がある。
まず、GUARDは様々なRLエージェント、タスク、安全制約仕様を備えた一般化されたベンチマークである。
第2に、GUARDは自己完結した実装で最先端の安全なRLアルゴリズムを包括的にカバーしている。
第3に、GUARDはタスクやアルゴリズムで高度にカスタマイズできる。
本稿では,GUARDを用いた各種タスク設定における最先端安全RLアルゴリズムの比較を行い,今後の作業が構築できるベースラインを確立する。
関連論文リスト
- Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - SafeRL-Kit: Evaluating Efficient Reinforcement Learning Methods for Safe
Autonomous Driving [12.925039760573092]
我々はSafeRL-Kitをリリースし、自動運転タスクのための安全なRLメソッドをベンチマークする。
SafeRL-Kitには、セーフ・レイヤ、リカバリ・RL、オフ・ポリティ・ラグランジアン・メソッド、Fasible Actor-Criticなど、ゼロ制約違反タスクに特化した最新のアルゴリズムがいくつか含まれている。
我々は、SafeRL-Kitで上記のアルゴリズムの比較評価を行い、安全自動運転の有効性について光を当てた。
論文 参考訳(メタデータ) (2022-06-17T03:23:51Z) - A Search-Based Testing Approach for Deep Reinforcement Learning Agents [1.1580916951856255]
本稿では、DRLエージェントのポリシーをテストするために、検索に基づく強化学習エージェント(STARLA)のテスト手法を提案する。
我々は、機械学習モデルと専用の遺伝的アルゴリズムを使用して、故障エピソードに対する探索を絞り込みます。
論文 参考訳(メタデータ) (2022-06-15T20:51:33Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - TeachMyAgent: a Benchmark for Automatic Curriculum Learning in Deep RL [23.719833581321033]
複数のタスクに一般化できる自律エージェントのトレーニングは、Deep Reinforcement Learning (DRL)研究の重要なターゲットです。
DRLアルゴリズムの改善と並行して、ACL(Automatic Curriculum Learning)は、進化する能力にタスク選択を適用することで、教師アルゴリズムがDRLエージェントをより効率的に訓練する方法を研究する。
DRLエージェントを比較するために複数の標準ベンチマークが存在するが、現在ACLアルゴリズムにはそのようなものは存在しない。
論文 参考訳(メタデータ) (2021-03-17T17:59:22Z) - Safe Distributional Reinforcement Learning [19.607668635077495]
強化学習における安全性(RL)は、自動運転や金融などの多くの分野での訓練と実行の両方において重要な特性です。
分布 RL の設定において制約付き RL の定式化で定式化する。
私たちは、人工および現実ドメインに関する提案を、最新の安全RLアルゴリズムに対して実証的に検証します。
論文 参考訳(メタデータ) (2021-02-26T13:03:27Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。