論文の概要: Learning Coordinated Terrain-Adaptive Locomotion by Imitating a
Centroidal Dynamics Planner
- arxiv url: http://arxiv.org/abs/2111.00262v1
- Date: Sat, 30 Oct 2021 14:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 06:12:25.195482
- Title: Learning Coordinated Terrain-Adaptive Locomotion by Imitating a
Centroidal Dynamics Planner
- Title(参考訳): 遠心動力学プランナーを模倣した地形適応運動の学習
- Authors: Philemon Brakel, Steven Bohez, Leonard Hasenclever, Nicolas Heess,
Konstantinos Bousmalis
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、動的リアクティブコントローラを学習できるが、優れた歩行を生み出すためには、慎重に調整された形状の報酬が必要である。
模倣学習は、この問題を回避し、平坦な地形の四足歩行を抽出するためにモーションキャプチャーデータと共に使用されてきた。
学習した方針が見えない地形に移行し、動的に困難な地形を横切るように微調整できることを示す。
- 参考スコア(独自算出の注目度): 27.476911967228926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic quadruped locomotion over challenging terrains with precise foot
placements is a hard problem for both optimal control methods and Reinforcement
Learning (RL). Non-linear solvers can produce coordinated constraint satisfying
motions, but often take too long to converge for online application. RL methods
can learn dynamic reactive controllers but require carefully tuned shaping
rewards to produce good gaits and can have trouble discovering precise
coordinated movements. Imitation learning circumvents this problem and has been
used with motion capture data to extract quadruped gaits for flat terrains.
However, it would be costly to acquire motion capture data for a very large
variety of terrains with height differences. In this work, we combine the
advantages of trajectory optimization and learning methods and show that
terrain adaptive controllers can be obtained by training policies to imitate
trajectories that have been planned over procedural terrains by a non-linear
solver. We show that the learned policies transfer to unseen terrains and can
be fine-tuned to dynamically traverse challenging terrains that require precise
foot placements and are very hard to solve with standard RL.
- Abstract(参考訳): 正確な足の配置を持つ難易度地形上の動的四足歩行は、最適制御法と強化学習(RL)の両方にとって難しい問題である。
非線形ソルバは、動きを満たす座標制約を生成できるが、オンラインアプリケーションに収束するのに時間がかかることが多い。
RL法は動的反応制御を学習できるが、良好な歩行を生成するためには慎重に調整された形状の報酬が必要である。
模倣学習はこの問題を回避し、平らな地形の四足歩行を抽出するためにモーションキャプチャデータと共に使用されてきた。
しかし、高度差のある非常に多種多様な地形のモーションキャプチャーデータを取得するのは費用がかかる。
本研究では、軌道最適化と学習手法の利点を組み合わせることで、非線形ソルバによる手続き的地形上で計画された軌道を模倣する軌道適応型コントローラを訓練ポリシーにより得られることを示す。
学習されたポリシーは、未確認の地形に移行し、正確な足の配置を必要とし、標準のRLでは解決が困難である挑戦的な地形を動的に横断するように微調整できることを示す。
関連論文リスト
- Monte Carlo Tree Search with Velocity Obstacles for safe and efficient motion planning in dynamic environments [49.30744329170107]
本稿では,動的障害物に関する情報を最小限に抑えた最適オンライン動作計画手法を提案する。
提案手法は,モデルシミュレーションによるオンライン最適計画のためのモンテカルロ木探索 (MCTS) と障害物回避のためのVelocity Obstacles (VO) を組み合わせた。
我々は,非線形モデル予測制御(NMPC)を含む最先端のプランナーに対して,衝突速度,計算,タスク性能の向上の観点から,我々の方法論の優位性を示す。
論文 参考訳(メタデータ) (2025-01-16T16:45:08Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control [62.24301794794304]
Deep Adaptive Trajectory Tracking (DATT)は、学習に基づくアプローチであり、現実世界の大きな乱れの存在下で、任意の、潜在的に実現不可能な軌跡を正確に追跡することができる。
DATTは、非定常風場における可溶性および非実用性の両方の軌道に対して、競争適応性非線形およびモデル予測コントローラを著しく上回っている。
適応非線形モデル予測制御ベースラインの1/4未満である3.2ms未満の推論時間で、効率的にオンラインで実行することができる。
論文 参考訳(メタデータ) (2023-10-13T12:22:31Z) - DTC: Deep Tracking Control [16.2850135844455]
本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。
深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。
モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
論文 参考訳(メタデータ) (2023-09-27T07:57:37Z) - Learning and Adapting Agile Locomotion Skills by Transferring Experience [71.8926510772552]
本稿では,既存のコントローラから新しいタスクを学習するために経験を移譲することで,複雑なロボティクススキルを訓練するためのフレームワークを提案する。
提案手法は,複雑なアジャイルジャンプ行動の学習,後肢を歩いたまま目標地点への移動,新しい環境への適応を可能にする。
論文 参考訳(メタデータ) (2023-04-19T17:37:54Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Learning to Jump from Pixels [23.17535989519855]
我々は、高度にアジャイルな視覚的誘導行動の合成法であるDepth-based Impulse Control (DIC)を提案する。
DICは、モデルフリー学習の柔軟性を提供するが、地面反応力の明示的なモデルベース最適化により、振る舞いを規則化する。
提案手法をシミュレーションと実世界の両方で評価する。
論文 参考訳(メタデータ) (2021-10-28T17:53:06Z) - RLOC: Terrain-Aware Legged Locomotion using Reinforcement Learning and
Optimal Control [6.669503016190925]
四元計画と制御のためのモデルベースとデータ駆動の統一的アプローチを提案する。
センサ情報と所望のベース速度コマンドを、強化学習ポリシーを用いて足踏み計画にマッピングする。
我々は、複雑な四足歩行システムであるANYmal Bの枠組みを訓練し、再訓練を必要とせず、より大きく重いロボットであるANYmal Cへの移動性を示す。
論文 参考訳(メタデータ) (2020-12-05T18:30:23Z) - Robust Quadrupedal Locomotion on Sloped Terrains: A Linear Policy
Approach [3.752600874088677]
私たちは、四足歩行ロボットStochに2ドル(約2万2000円)のリニアポリシーを使っています。
特に、エンドフット軌道のパラメータは、胴体方向と地形傾斜を入力として取る線形フィードバックポリシーによって形成される。
結果として生じる歩行は、地形の斜面の変動や外部のプッシュに対して堅牢である。
論文 参考訳(メタデータ) (2020-10-30T16:02:08Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。