論文の概要: SATA: Safe and Adaptive Torque-Based Locomotion Policies Inspired by Animal Learning
- arxiv url: http://arxiv.org/abs/2502.12674v1
- Date: Tue, 18 Feb 2025 09:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:05:42.578176
- Title: SATA: Safe and Adaptive Torque-Based Locomotion Policies Inspired by Animal Learning
- Title(参考訳): SATA:動物学習に触発された安全で適応的なトルクベースロコモーションポリシー
- Authors: Peizhuo Li, Hongyi Li, Ge Sun, Jin Cheng, Xinrong Yang, Guillaume Bellegarda, Milad Shafiee, Yuhong Cao, Auke Ijspeert, Guillaume Sartoretti,
- Abstract要約: SATAは、動物の移動で観察される重要な生体力学的原理と適応学習機構を模倣する生体に触発されたフレームワークである。
本手法は,早期探索を著しく改善し,トルクベースの政策を学習する上での課題を効果的に解決する。
実験結果から,SATAは,挑戦的環境においても,顕著なコンプライアンスと安全性を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 10.138425472807368
- License:
- Abstract: Despite recent advances in learning-based controllers for legged robots, deployments in human-centric environments remain limited by safety concerns. Most of these approaches use position-based control, where policies output target joint angles that must be processed by a low-level controller (e.g., PD or impedance controllers) to compute joint torques. Although impressive results have been achieved in controlled real-world scenarios, these methods often struggle with compliance and adaptability when encountering environments or disturbances unseen during training, potentially resulting in extreme or unsafe behaviors. Inspired by how animals achieve smooth and adaptive movements by controlling muscle extension and contraction, torque-based policies offer a promising alternative by enabling precise and direct control of the actuators in torque space. In principle, this approach facilitates more effective interactions with the environment, resulting in safer and more adaptable behaviors. However, challenges such as a highly nonlinear state space and inefficient exploration during training have hindered their broader adoption. To address these limitations, we propose SATA, a bio-inspired framework that mimics key biomechanical principles and adaptive learning mechanisms observed in animal locomotion. Our approach effectively addresses the inherent challenges of learning torque-based policies by significantly improving early-stage exploration, leading to high-performance final policies. Remarkably, our method achieves zero-shot sim-to-real transfer. Our experimental results indicate that SATA demonstrates remarkable compliance and safety, even in challenging environments such as soft/slippery terrain or narrow passages, and under significant external disturbances, highlighting its potential for practical deployments in human-centric and safety-critical scenarios.
- Abstract(参考訳): 脚付きロボットの学習ベースコントローラの最近の進歩にもかかわらず、人間中心の環境への展開は安全上の懸念によって制限されている。
これらのアプローチのほとんどは位置ベース制御を用いており、ポリシーは関節トルクを計算するために低レベルコントローラ(例えばPDまたはインピーダンスコントローラ)によって処理される必要がある関節角度を出力する。
実世界のシナリオで顕著な結果が得られたが、これらの手法はトレーニング中に見つからない環境や障害に遭遇した場合、コンプライアンスと適応性に苦しむことが多く、極端な、あるいは安全でない振る舞いをもたらす可能性がある。
筋伸展と収縮を制御することで、動物が滑らかで適応的な動きをする方法にインスパイアされたトルクベースのポリシーは、トルク空間におけるアクチュエータの精密かつ直接的な制御を可能にすることで、有望な代替手段を提供する。
原則として、このアプローチは環境とのより効果的な相互作用を促進し、より安全で適応可能な振る舞いをもたらす。
しかし、高度に非線形な状態空間や訓練中の非効率な探索といった課題は、広く採用を妨げている。
これらの制約に対処するために,動物運動で観察される重要な生体力学原理と適応学習機構を模倣したバイオインスパイアされたフレームワークであるSATAを提案する。
本手法は, 早期探索を著しく改善し, 高性能な最終政策を実現することにより, トルクベースの政策を学習する上での課題を効果的に解決する。
顕著なことに,本手法はゼロショット・シム・トゥ・リアル転送を実現する。
実験結果から,SATAはソフト・スリップ・ランドスケープや狭い通路などの難易度環境においても,顕著なコンプライアンスと安全性を示し,人中心・安全クリティカルなシナリオへの実践的展開の可能性を強調した。
関連論文リスト
- COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Bridging Adaptivity and Safety: Learning Agile Collision-Free Locomotion Across Varied Physics [10.408245303948993]
BAS(Bridging Adaptivity and Safety)は、不確実性のある動的環境においても適応的な安全性を提供するように設計されている。
本研究では,BASが平均速度を維持しながら,動的環境におけるベースラインよりも50%高い安全性を実現することを示す。
その結果、BASは19.8%の速度向上を実現し、現実のABSの2.36倍の速度で衝突する。
論文 参考訳(メタデータ) (2025-01-08T04:54:28Z) - Safe Policy Exploration Improvement via Subgoals [44.07721205323709]
強化学習(Reinforcement learning)は、自律ナビゲーションにおいて広く使われているアプローチであり、様々なタスクやロボットのセットアップの可能性を示している。
このようなセットアップでパフォーマンスが低かった理由の1つは、安全制約を尊重する必要性がRLエージェントの探索能力を低下させることである。
本稿では,初期問題を中間目標を介し,より小さなサブプロブレムに分解する新しい学習可能アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-25T16:12:49Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Safe Deep Policy Adaptation [7.2747306035142225]
強化学習(RL)に基づく政策適応は、汎用性と汎用性を提供するが、安全性と堅牢性に挑戦する。
政策適応と安全強化学習の課題を同時に解決する新しいRLおよび制御フレームワークであるSafeDPAを提案する。
我々は、SafeDPAの理論的安全性を保証し、学習エラーや余分な摂動に対するSafeDPAの堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-08T00:32:59Z) - Learning Variable Impedance Control for Aerial Sliding on Uneven
Heterogeneous Surfaces by Proprioceptive and Tactile Sensing [42.27572349747162]
本研究では,空中すべり作業に対する学習に基づく適応制御手法を提案する。
提案するコントローラ構造は,データ駆動制御とモデルベース制御を組み合わせたものである。
美術品間相互作用制御手法の微調整状態と比較して,追従誤差の低減と外乱拒否の改善を実現した。
論文 参考訳(メタデータ) (2022-06-28T16:28:59Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Learning Compliance Adaptation in Contact-Rich Manipulation [81.40695846555955]
本稿では,コンタクトリッチタスクに必要な力プロファイルの予測モデルを学習するための新しいアプローチを提案する。
このアプローチは、双方向Gated Recurrent Units (Bi-GRU) に基づく異常検出と適応力/インピーダンス制御を組み合わせたものである。
論文 参考訳(メタデータ) (2020-05-01T05:23:34Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。