論文の概要: Improving Safety in Deep Reinforcement Learning using Unsupervised
Action Planning
- arxiv url: http://arxiv.org/abs/2109.14325v1
- Date: Wed, 29 Sep 2021 10:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:43:24.678237
- Title: Improving Safety in Deep Reinforcement Learning using Unsupervised
Action Planning
- Title(参考訳): 教師なし行動計画を用いた深層強化学習の安全性向上
- Authors: Hao-Lun Hsu, Qiuhua Huang, Sehoon Ha
- Abstract要約: 深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。
そこで本稿では,オンライン強化学習アルゴリズムの安全性を向上させるために,教師なし行動計画の新たな手法を提案する。
提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬を得られることを示す。
- 参考スコア(独自算出の注目度): 4.2955354157580325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key challenges to deep reinforcement learning (deep RL) is to
ensure safety at both training and testing phases. In this work, we propose a
novel technique of unsupervised action planning to improve the safety of
on-policy reinforcement learning algorithms, such as trust region policy
optimization (TRPO) or proximal policy optimization (PPO). We design our
safety-aware reinforcement learning by storing all the history of "recovery"
actions that rescue the agent from dangerous situations into a separate
"safety" buffer and finding the best recovery action when the agent encounters
similar states. Because this functionality requires the algorithm to query
similar states, we implement the proposed safety mechanism using an
unsupervised learning algorithm, k-means clustering. We evaluate the proposed
algorithm on six robotic control tasks that cover navigation and manipulation.
Our results show that the proposed safety RL algorithm can achieve higher
rewards compared with multiple baselines in both discrete and continuous
control problems. The supplemental video can be found at:
https://youtu.be/AFTeWSohILo.
- Abstract(参考訳): 深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。
本研究では,信頼地域政策最適化 (TRPO) や近親政策最適化 (PPO) などのオンライン強化学習アルゴリズムの安全性向上を目的とした,教師なし行動計画手法を提案する。
我々は、危険状況からエージェントを救い出す「回復」行動の履歴をすべて別個の「安全」バッファに保存し、エージェントが同様の状態に遭遇した場合に最適な回復行動を見つけることによって、安全に配慮した強化学習を設計する。
この機能は,類似状態を問うアルゴリズムを必要とするため,教師なし学習アルゴリズムであるk平均クラスタリングを用いて,提案した安全性機構を実装した。
ナビゲーションと操作をカバーする6つのロボット制御タスクについて,提案アルゴリズムの評価を行った。
提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬が得られることを示す。
補足ビデオは、https://youtu.be/AFTeWSohILo.comで見ることができる。
関連論文リスト
- Reinforcement Learning with Ensemble Model Predictive Safety
Certification [2.658598582858331]
教師なし探索は、安全クリティカルなタスクに強化学習アルゴリズムを配置することを防ぐ。
本稿では,モデルに基づく深層強化学習と管型モデル予測制御を組み合わせた新しいアルゴリズムを提案する。
以上の結果から,従来の強化学習法に比べて制約違反が著しく少ないことが示唆された。
論文 参考訳(メタデータ) (2024-02-06T17:42:39Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Barrier Certified Safety Learning Control: When Sum-of-Square
Programming Meets Reinforcement Learning [0.0]
本研究は、強化学習よりも制御障壁関数を採用し、安全性を完全に維持するための補償アルゴリズムを提案する。
2次プログラミングに基づく強化学習法と比較して、我々の2次プログラミングに基づく強化学習は、その優位性を示している。
論文 参考訳(メタデータ) (2022-06-16T04:38:50Z) - Safely Bridging Offline and Online Reinforcement Learning [17.67983988254856]
我々は、UCB強化学習ポリシーを探索に用いるアルゴリズムを設計するが、高い確率で安全性を確保するためにそれをオーバーライドする。
本研究は, 症例ごとの基準方針と比較して, 良好な成績を保ちながら, アルゴリズムが学習できることを実証し, 敗血症治療の課題について実験的に検証した。
論文 参考訳(メタデータ) (2021-10-25T15:57:16Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。