論文の概要: DTC: Deep Tracking Control -- A Unifying Approach to Model-Based
Planning and Reinforcement-Learning for Versatile and Robust Locomotion
- arxiv url: http://arxiv.org/abs/2309.15462v1
- Date: Wed, 27 Sep 2023 07:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 17:06:43.511139
- Title: DTC: Deep Tracking Control -- A Unifying Approach to Model-Based
Planning and Reinforcement-Learning for Versatile and Robust Locomotion
- Title(参考訳): DTC:Deep Tracking Control -- Versatile and Robust Locomotionのためのモデルベース計画と強化学習への統一的アプローチ
- Authors: Fabian Jenelten, Junzhe He, Farbod Farshidian, Marco Hutter
- Abstract要約: 本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。
深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。
モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
- 参考スコア(独自算出の注目度): 16.2850135844455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legged locomotion is a complex control problem that requires both accuracy
and robustness to cope with real-world challenges. Legged systems have
traditionally been controlled using trajectory optimization with inverse
dynamics. Such hierarchical model-based methods are appealing due to intuitive
cost function tuning, accurate planning, and most importantly, the insightful
understanding gained from more than one decade of extensive research. However,
model mismatch and violation of assumptions are common sources of faulty
operation and may hinder successful sim-to-real transfer. Simulation-based
reinforcement learning, on the other hand, results in locomotion policies with
unprecedented robustness and recovery skills. Yet, all learning algorithms
struggle with sparse rewards emerging from environments where valid footholds
are rare, such as gaps or stepping stones. In this work, we propose a hybrid
control architecture that combines the advantages of both worlds to
simultaneously achieve greater robustness, foot-placement accuracy, and terrain
generalization. Our approach utilizes a model-based planner to roll out a
reference motion during training. A deep neural network policy is trained in
simulation, aiming to track the optimized footholds. We evaluate the accuracy
of our locomotion pipeline on sparse terrains, where pure data-driven methods
are prone to fail. Furthermore, we demonstrate superior robustness in the
presence of slippery or deformable ground when compared to model-based
counterparts. Finally, we show that our proposed tracking controller
generalizes across different trajectory optimization methods not seen during
training. In conclusion, our work unites the predictive capabilities and
optimality guarantees of online planning with the inherent robustness
attributed to offline learning.
- Abstract(参考訳): レッグドロコモーションは複雑な制御問題であり、現実世界の課題に対処するために正確性と堅牢性の両方を必要とする。
レッグドシステムは従来、軌道最適化と逆ダイナミクスを用いて制御されてきた。
このような階層的モデルに基づく手法は、直感的なコスト関数チューニング、正確な計画、そして最も重要なのは、10年以上にわたる広範な研究から得られた洞察に富んだ理解によって魅力的である。
しかし、モデルミスマッチや仮定の違反は、誤動作の一般的な原因であり、sim-to-real転送の成功を妨げる可能性がある。
一方,シミュレーションに基づく強化学習は,前例のないロバスト性とリカバリスキルを備えた移動政策をもたらす。
しかし、すべての学習アルゴリズムは、ギャップや踏み石など、有効な足場が稀な環境から生まれる、まばらな報酬に苦しむ。
本研究では,両世界の強固性,足の配置精度,地形の一般化を同時に達成するためのハイブリッド制御アーキテクチャを提案する。
本手法では,モデルベースプランナを用いて,トレーニング中に参照動作をロールアウトする。
ディープニューラルネットワークポリシは、最適化された足場を追跡するために、シミュレーションでトレーニングされる。
純粋なデータ駆動手法が失敗しがちであるスパースな地形における移動パイプラインの精度を評価する。
さらに, モデルベースに比べてすべりや変形性を有する地盤の存在において, 優れた強靭性を示す。
最後に,提案したトラッキングコントローラは,トレーニング中に見つからない様々な軌道最適化手法を一般化することを示す。
結論として,オンラインプランニングの予測能力と最適性保証と,オフライン学習による本質的な堅牢性とを両立させる。
関連論文リスト
- 3D Multi-Object Tracking with Semi-Supervised GRU-Kalman Filter [6.13623925528906]
3D Multi-Object Tracking (MOT)は、自律運転やロボットセンシングのようなインテリジェントなシステムに不可欠である。
本稿では,学習可能なカルマンフィルタを移動モジュールに導入するGRUベースのMOT法を提案する。
このアプローチは、データ駆動学習を通じてオブジェクトの動き特性を学習することができ、手動モデル設計やモデルエラーを回避することができる。
論文 参考訳(メタデータ) (2024-11-13T08:34:07Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - RLOC: Terrain-Aware Legged Locomotion using Reinforcement Learning and
Optimal Control [6.669503016190925]
四元計画と制御のためのモデルベースとデータ駆動の統一的アプローチを提案する。
センサ情報と所望のベース速度コマンドを、強化学習ポリシーを用いて足踏み計画にマッピングする。
我々は、複雑な四足歩行システムであるANYmal Bの枠組みを訓練し、再訓練を必要とせず、より大きく重いロボットであるANYmal Cへの移動性を示す。
論文 参考訳(メタデータ) (2020-12-05T18:30:23Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。