Fugu-MT 論文翻訳(概要): DTC: Deep Tracking Control

論文の概要: DTC: Deep Tracking Control

arxiv url: http://arxiv.org/abs/2309.15462v2
Date: Mon, 22 Jan 2024 17:02:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 00:14:28.069148
Title: DTC: Deep Tracking Control
Title（参考訳）: DTC:ディープトラッキング制御
Authors: Fabian Jenelten, Junzhe He, Farbod Farshidian, Marco Hutter
Abstract要約: 本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
参考スコア（独自算出の注目度）: 16.2850135844455
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Legged locomotion is a complex control problem that requires both accuracy and robustness to cope with real-world challenges. Legged systems have traditionally been controlled using trajectory optimization with inverse dynamics. Such hierarchical model-based methods are appealing due to intuitive cost function tuning, accurate planning, generalization, and most importantly, the insightful understanding gained from more than one decade of extensive research. However, model mismatch and violation of assumptions are common sources of faulty operation. Simulation-based reinforcement learning, on the other hand, results in locomotion policies with unprecedented robustness and recovery skills. Yet, all learning algorithms struggle with sparse rewards emerging from environments where valid footholds are rare, such as gaps or stepping stones. In this work, we propose a hybrid control architecture that combines the advantages of both worlds to simultaneously achieve greater robustness, foot-placement accuracy, and terrain generalization. Our approach utilizes a model-based planner to roll out a reference motion during training. A deep neural network policy is trained in simulation, aiming to track the optimized footholds. We evaluate the accuracy of our locomotion pipeline on sparse terrains, where pure data-driven methods are prone to fail. Furthermore, we demonstrate superior robustness in the presence of slippery or deformable ground when compared to model-based counterparts. Finally, we show that our proposed tracking controller generalizes across different trajectory optimization methods not seen during training. In conclusion, our work unites the predictive capabilities and optimality guarantees of online planning with the inherent robustness attributed to offline learning.
Abstract（参考訳）: レッグドロコモーションは複雑な制御問題であり、現実世界の課題に対処するために正確性と堅牢性の両方を必要とする。レッグドシステムは従来、軌道最適化と逆ダイナミクスを用いて制御されてきた。このような階層的モデルに基づく手法は、直感的なコスト関数チューニング、正確な計画、一般化、そして最も重要なのは、10年以上にわたる広範な研究から得られた洞察に富んだ理解によって魅力的である。しかし, モデルミスマッチや仮定違反は, 故障の原因としてよく見られる。一方,シミュレーションに基づく強化学習は,前例のないロバスト性とリカバリスキルを備えた移動政策をもたらす。しかし、すべての学習アルゴリズムは、ギャップや踏み石など、有効な足場が稀な環境から生まれる、まばらな報酬に苦しむ。本研究では,両世界の強固性,足の配置精度,地形の一般化を同時に達成するためのハイブリッド制御アーキテクチャを提案する。本手法では,モデルベースプランナを用いて,トレーニング中に参照動作をロールアウトする。ディープニューラルネットワークポリシは、最適化された足場を追跡するために、シミュレーションでトレーニングされる。純粋なデータ駆動手法が失敗しがちであるスパースな地形における移動パイプラインの精度を評価する。さらに, モデルベースに比べてすべりや変形性を有する地盤の存在において, 優れた強靭性を示す。最後に,提案したトラッキングコントローラは,トレーニング中に見つからない様々な軌道最適化手法を一般化することを示す。結論として,オンラインプランニングの予測能力と最適性保証と,オフライン学習による本質的な堅牢性とを両立させる。

関連論文リスト

Learning Robust Satellite Attitude Dynamics with Physics-Informed Normalising Flow [2.7222301668137483]
宇宙機の姿勢力学の学習に物理インフォームドニューラルネットワークを組み込むことの利点について検討する。バシリスクシミュレータで生成されたシミュレーションデータに基づいて複数のモデルを訓練する。 PINNベースのモデルは、制御精度とロバスト性の観点から、純粋にデータ駆動モデルよりも一貫して優れています。
論文参考訳（メタデータ） (2025-08-11T10:50:49Z)
ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation [2.7405276609125164]
学習力学モデルによるプランニングは、現実世界の長期的操作に対して有望なアプローチを提供する。 ActivePusherは、残差物理モデリングとカーネルベースの不確実性駆動型アクティブラーニングを組み合わせたフレームワークである。シミュレーションと実世界の両環境でのアプローチを評価し,ベースライン手法と比較してデータ効率と計画成功率を改善することを示す。
論文参考訳（メタデータ） (2025-06-05T05:28:14Z)
RIFT: Group-Relative RL Fine-Tuning for Realistic and Controllable Traffic Simulation [13.319344167881383]
データ駆動シミュレーターにおいて、模擬学習事前学習を行う2段階のAV中心シミュレーションフレームワークを導入する。次に、物理に基づくシミュレータで微調整を学習し、スタイルレベルの制御性を向上する。微調整段階において,新しいグループ関連RL微調整戦略であるRIFTを提案する。
論文参考訳（メタデータ） (2025-05-06T09:12:37Z)
Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文参考訳（メタデータ） (2025-02-20T18:39:41Z)
3D Multi-Object Tracking with Semi-Supervised GRU-Kalman Filter [6.13623925528906]
3D Multi-Object Tracking (MOT)は、自律運転やロボットセンシングのようなインテリジェントなシステムに不可欠である。本稿では,学習可能なカルマンフィルタを移動モジュールに導入するGRUベースのMOT法を提案する。このアプローチは、データ駆動学習を通じてオブジェクトの動き特性を学習することができ、手動モデル設計やモデルエラーを回避することができる。
論文参考訳（メタデータ） (2024-11-13T08:34:07Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。 D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文参考訳（メタデータ） (2024-02-05T10:18:15Z)
Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文参考訳（メタデータ） (2022-06-07T13:51:35Z)
Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文参考訳（メタデータ） (2022-04-14T17:46:26Z)
Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文参考訳（メタデータ） (2022-04-09T22:07:34Z)
RLOC: Terrain-Aware Legged Locomotion using Reinforcement Learning and Optimal Control [6.669503016190925]
四元計画と制御のためのモデルベースとデータ駆動の統一的アプローチを提案する。センサ情報と所望のベース速度コマンドを、強化学習ポリシーを用いて足踏み計画にマッピングする。我々は、複雑な四足歩行システムであるANYmal Bの枠組みを訓練し、再訓練を必要とせず、より大きく重いロボットであるANYmal Cへの移動性を示す。
論文参考訳（メタデータ） (2020-12-05T18:30:23Z)
Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文参考訳（メタデータ） (2020-04-04T14:16:27Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。