論文の概要: Safe Reinforcement Learning for Legged Locomotion
- arxiv url: http://arxiv.org/abs/2203.02638v1
- Date: Sat, 5 Mar 2022 01:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 15:20:23.371704
- Title: Safe Reinforcement Learning for Legged Locomotion
- Title(参考訳): 足歩行における安全強化学習
- Authors: Tsung-Yen Yang, Tingnan Zhang, Linda Luu, Sehoon Ha, Jie Tan, Wenhao
Yu
- Abstract要約: 本研究では,ロボットが安全でない状態に入るのを防ぐ安全回復政策と,タスクを完了させるために最適化された学習者ポリシーとを切り替える安全な強化学習フレームワークを提案する。
シミュレーションおよび実四足歩行ロボットを用いた4つの移動作業において,提案手法を検証した。
提案手法は, シミュレーションにおける基準法よりも48.6%減少し, 同等あるいは優れた報奨が得られている。
- 参考スコア(独自算出の注目度): 18.57681606310315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing control policies for legged locomotion is complex due to the
under-actuated and non-continuous robot dynamics. Model-free reinforcement
learning provides promising tools to tackle this challenge. However, a major
bottleneck of applying model-free reinforcement learning in real world is
safety. In this paper, we propose a safe reinforcement learning framework that
switches between a safe recovery policy that prevents the robot from entering
unsafe states, and a learner policy that is optimized to complete the task. The
safe recovery policy takes over the control when the learner policy violates
safety constraints, and hands over the control back when there are no future
safety violations. We design the safe recovery policy so that it ensures safety
of legged locomotion while minimally intervening in the learning process.
Furthermore, we theoretically analyze the proposed framework and provide an
upper bound on the task performance. We verify the proposed framework in four
locomotion tasks on a simulated and real quadrupedal robot: efficient gait,
catwalk, two-leg balance, and pacing. On average, our method achieves 48.6%
fewer falls and comparable or better rewards than the baseline methods in
simulation. When deployed it on real-world quadruped robot, our training
pipeline enables 34% improvement in energy efficiency for the efficient gait,
40.9% narrower of the feet placement in the catwalk, and two times more jumping
duration in the two-leg balance. Our method achieves less than five falls over
the duration of 115 minutes of hardware time.
- Abstract(参考訳): 足の移動に対する制御ポリシーの設計は、動作不足と非連続的なロボット力学のために複雑である。
モデルなし強化学習は、この課題に取り組むための有望なツールを提供する。
しかし、モデルレス強化学習を現実世界に適用する際の大きなボトルネックは安全性である。
本稿では,ロボットが安全でない状態に入るのを防ぐ安全回復政策と,タスクを完了させるために最適化された学習者ポリシーとを切り替える安全な強化学習フレームワークを提案する。
安全回復ポリシーは、学習者ポリシーが安全制約に違反した場合に制御を引き継ぎ、将来の安全違反がない場合は制御を手渡す。
我々は,学習プロセスに最小限の介入をしながら,足歩行の安全性を確保する安全回復政策を設計する。
さらに,提案するフレームワークを理論的に解析し,タスク性能に上限を与える。
提案手法は, 4脚歩行, キャットウォーク, 2脚バランス, ペーシングという, シミュレーションおよび実四足歩行ロボットによる4つの移動作業において検証される。
提案手法は, 平均48.6%のフォールと, シミュレーションにおけるベースライン法よりも優れた報奨を得られる。
実世界の四足歩行ロボットに配備すると、トレーニングパイプラインは効率の良い歩行のエネルギー効率が34%向上し、キャットウォークの足の配置が40.9%狭くなり、2足バランスでのジャンプ時間が2倍向上した。
本手法は,115分間のハードウェア時間において,5回未満のフォールを達成できる。
関連論文リスト
- RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion [13.647294304606316]
本稿では,四足歩行ロボットのための学習ベースの制御フレームワークであるAgile But Safe(ABS)を紹介する。
ABSには障害の中でアジャイルモータースキルを実行するためのアジャイルポリシと、障害を防止するためのリカバリポリシが含まれています。
トレーニングプロセスには、アジャイルポリシ、リーチアビドバリューネットワーク、リカバリポリシ、排他的表現ネットワークの学習が含まれる。
論文 参考訳(メタデータ) (2024-01-31T03:58:28Z) - Towards Optimal Head-to-head Autonomous Racing with Curriculum
Reinforcement Learning [22.69532642800264]
車両力学を正確にモデル化した強化学習のためのヘッド・ツー・ヘッドレース環境を提案する。
また,エージェントの安全性を高めるために,制御バリア関数に基づく安全強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:05:41Z) - Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios [147.16925581385576]
シミュレーション学習と強化学習を組み合わせることで,運転方針の安全性と信頼性が大幅に向上することを示す。
都会の運転データ100万マイル以上でポリシーを訓練し、異なるレベルの衝突確率でグループ化されたテストシナリオにおける有効性を測定する。
論文 参考訳(メタデータ) (2022-12-21T23:59:33Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Weakly Supervised Reinforcement Learning for Autonomous Highway Driving
via Virtual Safety Cages [42.57240271305088]
規則に基づく安全ケージは、車両の安全性の向上と強化学習エージェントに対する弱い監督を提供する自律型車両の縦方向制御に対する強化学習ベースのアプローチを提示する。
モデルパラメータが制約されたり,あるいは最適化されていない場合,モデルが強化学習だけでは運転を訓練できない場合でも,モデルが安全な運転方針を学習できることを示す。
論文 参考訳(メタデータ) (2021-03-17T15:30:36Z) - Protective Policy Transfer [37.897395735552706]
ロボットモーターのスキルを新しいシナリオに適応するためのポリシー転送アルゴリズムを紹介します。
アルゴリズムは2つの制御ポリシーを訓練する: 関心のあるタスクを完了するために最適化されたタスクポリシーと、ロボットを安全でないイベントから守るための保護ポリシーです。
本研究では,4つのロボット移動問題と2次元ナビゲーション問題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-12-11T22:10:54Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Learning to Walk in the Real World with Minimal Human Effort [80.7342153519654]
我々は,人間の努力を最小限に抑えて,現実世界の深いRLを用いた足の移動ポリシーを学習するシステムを開発した。
人間の介入がほとんどないミニチュアロボットにおいて,ロボットの移動スキルを自動的かつ効率的に学習することができる。
論文 参考訳(メタデータ) (2020-02-20T03:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。