論文の概要: Provably Safe Deep Reinforcement Learning for Robotic Manipulation in
Human Environments
- arxiv url: http://arxiv.org/abs/2205.06311v1
- Date: Thu, 12 May 2022 18:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 02:21:46.181077
- Title: Provably Safe Deep Reinforcement Learning for Robotic Manipulation in
Human Environments
- Title(参考訳): 人間環境におけるロボット操作のための安全深層強化学習
- Authors: Jakob Thumm and Matthias Althoff
- Abstract要約: マニピュレータ上でのRLアルゴリズムの訓練および展開において,ISO認証による安全性を保証する遮蔽機構を提案する。
我々は、人間とマニピュレータの高速到達性解析を利用して、マニピュレータが人間の範囲内に入る前に完全に停止することを保証する。
- 参考スコア(独自算出の注目度): 8.751383865142772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (RL) has shown promising results in the motion
planning of manipulators. However, no method guarantees the safety of highly
dynamic obstacles, such as humans, in RL-based manipulator control. This lack
of formal safety assurances prevents the application of RL for manipulators in
real-world human environments. Therefore, we propose a shielding mechanism that
ensures ISO-verified human safety while training and deploying RL algorithms on
manipulators. We utilize a fast reachability analysis of humans and
manipulators to guarantee that the manipulator comes to a complete stop before
a human is within its range. Our proposed method guarantees safety and
significantly improves the RL performance by preventing episode-ending
collisions. We demonstrate the performance of our proposed method in simulation
using human motion capture data.
- Abstract(参考訳): 深部強化学習(RL)はマニピュレータの運動計画において有望な結果を示した。
しかし、rlベースのマニピュレータ制御において、人間のような非常にダイナミックな障害物の安全性を保証する方法はない。
この正式な安全保証の欠如は、現実世界の人間環境におけるマニピュレータへのRLの適用を妨げる。
そこで本研究では,マニピュレータ上でのRLアルゴリズムのトレーニングおよび展開中に,ISO認証による安全性を保証する遮蔽機構を提案する。
我々は、人間とマニピュレータの高速到達性解析を利用して、マニピュレータが人間の範囲内に入る前に完全に停止することを保証する。
提案手法は,事故発生時の衝突を防止し,安全性を保証し,RL性能を大幅に向上する。
人間のモーションキャプチャーデータを用いたシミュレーションにおいて,提案手法の性能を示す。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Stable and Safe Human-aligned Reinforcement Learning through Neural Ordinary Differential Equations [1.5413714916429737]
本稿では、このようなヒューマンアライメントタスクに対して、安全性と安定性の定義を提供する。
ニューラル常微分方程式(NODE)を用いて人やロボットの動きを予測するアルゴリズムを提案する。
シミュレーションの結果、制御されたロボットが、より少ない安全性違反で望ましい目標状態に達するのを助けることが示される。
論文 参考訳(メタデータ) (2024-01-23T23:50:19Z) - HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.807187711407621]
本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文 参考訳(メタデータ) (2024-01-06T08:30:14Z) - Reinforcement Learning for Safe Robot Control using Control Lyapunov
Barrier Functions [9.690491406456307]
強化学習(RL)は、ロボットの複雑な制御タスクを管理する際の優れた性能を示す。
本稿では、データのみに基づいて安全性と到達可能性を分析するために、制御型リアプノフバリア関数(CLBF)について検討する。
また、Lyapunov barrier actor-critic (LBAC) を提案し、データに基づく安全性と到達性条件の近似を満足するコントローラを探索した。
論文 参考訳(メタデータ) (2023-05-16T20:27:02Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Reinforcement Learning using Data-Driven Predictive Control [0.5459797813771499]
安全でない動作のフィルタとして機能するデータ駆動型安全層を提案する。
安全層は、提案されたアクションが安全でない場合にRLエージェントをペナルティ化し、最も安全なものに置き換える。
本手法は,ロボットナビゲーション問題において,最先端の安全RL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-20T17:10:40Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。