論文の概要: A Review of Safe Reinforcement Learning: Methods, Theory and
Applications
- arxiv url: http://arxiv.org/abs/2205.10330v2
- Date: Mon, 23 May 2022 08:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 12:00:47.935127
- Title: A Review of Safe Reinforcement Learning: Methods, Theory and
Applications
- Title(参考訳): 安全強化学習の展望 : 方法・理論・応用
- Authors: Shangding Gu, Long Yang, Yali Du, Guang Chen, Florian Walter, Jun
Wang, Yaodong Yang, Alois Knoll
- Abstract要約: 手法,理論,応用の観点から,安全なRLのレビューを行う。
私たちは、安全なRLを現実世界のアプリケーションにデプロイするのに不可欠な5つの問題を見つけ出し、"2H3W"と名づけた。
- 参考スコア(独自算出の注目度): 19.209486553781176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has achieved tremendous success in many complex
decision making tasks. When it comes to deploying RL in the real world, safety
concerns are usually raised, leading to a growing demand for safe reinforcement
learning algorithms, such as in autonomous driving and robotics scenarios.
While safety control has a long history, the study of safe RL algorithms is
still in the early stages. To establish a good foundation for future research
in this thread, in this paper, we provide a review for safe RL from the
perspectives of methods, theory and applications. Firstly, we review the
progress of safe RL from five dimensions and come up with five problems that
are crucial for safe RL being deployed in real-world applications, coined as
"2H3W". Secondly, we analyze the theory and algorithm progress from the
perspectives of answering the "2H3W" problems. Then, the sample complexity of
safe RL methods is reviewed and discussed, followed by an introduction of the
applications and benchmarks of safe RL algorithms. Finally, we open the
discussion of the challenging problems in safe RL, hoping to inspire more
future research on this thread.
To advance the study of safe RL algorithms, we release a benchmark suite, an
open-sourced repository containing the implementations of major safe RL
algorithms, along with tutorials at the link:
https://github.com/chauncygu/Safe-Reinforcement-Learning-Baselines.git.
- Abstract(参考訳): 強化学習は多くの複雑な意思決定タスクで大きな成功を収めました。
現実の世界におけるRLの展開に関しては、安全上の懸念が高まっており、自動運転やロボティクスのシナリオなど、安全な強化学習アルゴリズムの需要が高まっている。
安全性制御には長い歴史があるが、安全なrlアルゴリズムの研究はまだ初期段階にある。
本稿では,本スレッドの今後の研究基盤を確立するために,手法,理論,応用の観点から,安全なRLのレビューを行う。
まず,安全RLの5次元からの進歩を概観し,安全RLを「2H3W」と命名した現実世界のアプリケーションに展開する上で重要な5つの問題を提起する。
次に,「2h3w」問題への回答の観点から,理論とアルゴリズムの進歩を分析する。
次に、安全なRL手法のサンプル複雑性を概説し、続いて安全なRLアルゴリズムのアプリケーションとベンチマークを導入する。
最後に、安全なRLにおける課題に関する議論を開き、このスレッドに関するさらなる研究を刺激したいと考えている。
安全なRLアルゴリズムの研究を進めるために、主要な安全なRLアルゴリズムの実装を含むオープンソースリポジトリであるベンチマークスイートをリリースした。
関連論文リスト
- Long-term Safe Reinforcement Learning with Binary Feedback [5.684409853507594]
LoBiSaRL (Long-term Binary Safe RL) はマルコフ決定過程に対する安全なRLアルゴリズムである。
LoBiSaRLは長期の安全制約を高い確率で保証する。
理論的には,LoBiSaRLは長期の安全制約を高い確率で保証している。
論文 参考訳(メタデータ) (2024-01-08T10:07:31Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - GUARD: A Safe Reinforcement Learning Benchmark [11.887626936994883]
一般化SAfe強化学習開発ベンチマーク
GUARDは、さまざまなRLエージェント、タスク、安全制約仕様を備えた一般化されたベンチマークである。
本稿では,GUARDを用いた各種タスク設定における最先端安全RLアルゴリズムの比較を行い,今後の作業が構築できるベースラインを確立する。
論文 参考訳(メタデータ) (2023-05-23T04:40:29Z) - OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning
Research [3.0536277689386453]
SafeRL研究の迅速化を目的とした基礎的枠組みを提案する。
我々のフレームワークは、異なるRLドメインにまたがるアルゴリズムの配列を含み、安全要素に重点を置いている。
論文 参考訳(メタデータ) (2023-05-16T09:22:14Z) - Safe and Sample-efficient Reinforcement Learning for Clustered Dynamic
Environments [4.111899441919165]
本研究は,2つの課題に対処する安全かつサンプル効率の強化学習(RL)フレームワークを提案する。
我々は、セーフセットアルゴリズム(SSA)を用いて、名目制御の監視と修正を行い、クラスタリングされた動的環境におけるSSA+RLの評価を行う。
我々のフレームワークは、トレーニング中の他の安全なRL手法と比較して安全性が向上し、エピソードが大幅に少ないタスクを解決できる。
論文 参考訳(メタデータ) (2023-03-24T20:29:17Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - SafeRL-Kit: Evaluating Efficient Reinforcement Learning Methods for Safe
Autonomous Driving [12.925039760573092]
我々はSafeRL-Kitをリリースし、自動運転タスクのための安全なRLメソッドをベンチマークする。
SafeRL-Kitには、セーフ・レイヤ、リカバリ・RL、オフ・ポリティ・ラグランジアン・メソッド、Fasible Actor-Criticなど、ゼロ制約違反タスクに特化した最新のアルゴリズムがいくつか含まれている。
我々は、SafeRL-Kitで上記のアルゴリズムの比較評価を行い、安全自動運転の有効性について光を当てた。
論文 参考訳(メタデータ) (2022-06-17T03:23:51Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones [81.49106778460238]
リカバリRLは、オフラインデータを使用して、ポリシー学習の前に制約違反ゾーンについて学習する。
2つのコンタクトリッチな操作タスクと画像に基づくナビゲーションタスクを含む6つのシミュレーション領域におけるリカバリRLの評価を行った。
その結果,リカバリRLは制約違反やタスク成功を2~20倍,物理実験では3倍の効率で処理できることが示唆された。
論文 参考訳(メタデータ) (2020-10-29T20:10:02Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。