論文の概要: Bridging Adaptivity and Safety: Learning Agile Collision-Free Locomotion Across Varied Physics
- arxiv url: http://arxiv.org/abs/2501.04276v1
- Date: Wed, 08 Jan 2025 04:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:54:55.166103
- Title: Bridging Adaptivity and Safety: Learning Agile Collision-Free Locomotion Across Varied Physics
- Title(参考訳): ブリッジング適応性と安全性 - アジャイル衝突なしのロコモーションを学ぶ
- Authors: Yichao Zhong, Chong Zhang, Tairan He, Guanya Shi,
- Abstract要約: BAS(Bridging Adaptivity and Safety)は、不確実性のある動的環境においても適応的な安全性を提供するように設計されている。
本研究では,BASが平均速度を維持しながら,動的環境におけるベースラインよりも50%高い安全性を実現することを示す。
その結果、BASは19.8%の速度向上を実現し、現実のABSの2.36倍の速度で衝突する。
- 参考スコア(独自算出の注目度): 10.408245303948993
- License:
- Abstract: Real-world legged locomotion systems often need to reconcile agility and safety for different scenarios. Moreover, the underlying dynamics are often unknown and time-variant (e.g., payload, friction). In this paper, we introduce BAS (Bridging Adaptivity and Safety), which builds upon the pipeline of prior work Agile But Safe (ABS)(He et al.) and is designed to provide adaptive safety even in dynamic environments with uncertainties. BAS involves an agile policy to avoid obstacles rapidly and a recovery policy to prevent collisions, a physical parameter estimator that is concurrently trained with agile policy, and a learned control-theoretic RA (reach-avoid) value network that governs the policy switch. Also, the agile policy and RA network are both conditioned on physical parameters to make them adaptive. To mitigate the distribution shift issue, we further introduce an on-policy fine-tuning phase for the estimator to enhance its robustness and accuracy. The simulation results show that BAS achieves 50% better safety than baselines in dynamic environments while maintaining a higher speed on average. In real-world experiments, BAS shows its capability in complex environments with unknown physics (e.g., slippery floors with unknown frictions, unknown payloads up to 8kg), while baselines lack adaptivity, leading to collisions or. degraded agility. As a result, BAS achieves a 19.8% increase in speed and gets a 2.36 times lower collision rate than ABS in the real world. Videos: https://adaptive-safe-locomotion.github.io.
- Abstract(参考訳): 現実の足のロコモーションシステムは、さまざまなシナリオのアジリティと安全性を調整する必要があることが多い。
さらに、基礎となるダイナミクスはしばしば未知であり、時変(例えばペイロード、摩擦)である。
本稿では,従来の作業であるAgile But Safe(ABS)(He et al )のパイプライン上に構築されたBAS(Bridging Adaptivity and Safety)を紹介する。
BASには,障害を迅速に回避するためのアジャイルポリシと,衝突防止のためのリカバリポリシ,アジャイルポリシと並行してトレーニングされた物理パラメータ推定器,ポリシスイッチを管理する学習されたコントロール理論的RA(リーチ・アビド)価値ネットワークが含まれている。
また、アジャイルポリシーとRAネットワークはどちらも、適応させるために物理的パラメータに条件付けられています。
分散シフト問題を緩和するために、我々はさらに、その堅牢性と精度を高めるために、推定器のオンライン微調整フェーズを導入する。
シミュレーションの結果,BASは平均速度を高く保ちながら,動的環境の基準線よりも50%安全であることがわかった。
実世界の実験では、BASは未知の物理学(例えば、未知の摩擦を持つ滑りやすい床、未知のペイロード、最大8kg)を持つ複雑な環境でその能力を示す一方で、ベースラインは適応性に欠け、衝突や衝突につながる。
機敏さを低下させました
その結果、BASは19.8%の速度向上を実現し、現実のABSの2.36倍の速度で衝突する。
動画:https://adaptive-safe-locomotion.github.io
関連論文リスト
- RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Learning Speed Adaptation for Flight in Clutter [3.8876619768726157]
動物は自分の運動の速度を自分の能力や観察する環境に適応させることを学ぶ。
モバイルロボットはまた、タスクを効率的に達成するための攻撃性と安全性をトレードオフする能力を示す必要がある。
この研究は、未知の、部分的に観測可能な乱雑な環境において、速度適応の能力を持つ飛行車両を養うことを目的としている。
論文 参考訳(メタデータ) (2024-03-07T15:30:54Z) - Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion [13.647294304606316]
本稿では,四足歩行ロボットのための学習ベースの制御フレームワークであるAgile But Safe(ABS)を紹介する。
ABSには障害の中でアジャイルモータースキルを実行するためのアジャイルポリシと、障害を防止するためのリカバリポリシが含まれています。
トレーニングプロセスには、アジャイルポリシ、リーチアビドバリューネットワーク、リカバリポリシ、排他的表現ネットワークの学習が含まれる。
論文 参考訳(メタデータ) (2024-01-31T03:58:28Z) - Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。
予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。
この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。
その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文 参考訳(メタデータ) (2023-12-04T12:37:54Z) - Safe Deep Policy Adaptation [7.2747306035142225]
強化学習(RL)に基づく政策適応は、汎用性と汎用性を提供するが、安全性と堅牢性に挑戦する。
政策適応と安全強化学習の課題を同時に解決する新しいRLおよび制御フレームワークであるSafeDPAを提案する。
我々は、SafeDPAの理論的安全性を保証し、学習エラーや余分な摂動に対するSafeDPAの堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-08T00:32:59Z) - Runtime Stealthy Perception Attacks against DNN-based Adaptive Cruise Control Systems [8.561553195784017]
本稿では,実行時認識攻撃下での深層ニューラルネットワークを用いたACCシステムのセキュリティ評価を行う。
攻撃を誘発する最も重要な時間を選択するための文脈認識戦略を提案する。
提案攻撃の有効性を,実車,公用運転データセット,現実的なシミュレーションプラットフォームを用いて評価した。
論文 参考訳(メタデータ) (2023-07-18T03:12:03Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Model-Based Meta-Reinforcement Learning for Flight with Suspended
Payloads [69.21503033239985]
吊り下げられたペイロードの輸送は、自律的な航空車両にとって困難である。
接続後飛行データから数秒以内に変化力学のモデルを学習するメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-04-23T17:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。