論文の概要: RL-Augmented MPC for Non-Gaited Legged and Hybrid Locomotion
- arxiv url: http://arxiv.org/abs/2603.10878v1
- Date: Wed, 11 Mar 2026 15:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.690069
- Title: RL-Augmented MPC for Non-Gaited Legged and Hybrid Locomotion
- Title(参考訳): RL-Augmented MPC for Non-Gaited Legged and Hybrid Locomotion (特集 バイオサイバネティックスとバイオサイバネティックス)
- Authors: Andrea Patrizi, Carlo Rizzardo, Arturo Laurenzi, Francesco Ruscelli, Luca Rossini, Nikos G. Tsagarakis,
- Abstract要約: 本稿では,RL (Reinforcement Learning) とMPC (Model Predictive Control) を結合した接触型階層型アーキテクチャを提案する。
これにより、シミュレーションの試行錯誤を通じて非巡回歩行を学習することで、MPCからの接触タイミングの負担を軽減できる。
効果的な政策を得るためには,最小限の報酬と限定的なチューニングしか必要としないことを示す。
- 参考スコア(独自算出の注目度): 3.7230175411322706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a contact-explicit hierarchical architecture coupling Reinforcement Learning (RL) and Model Predictive Control (MPC), where a high-level RL agent provides gait and navigation commands to a low-level locomotion MPC. This offloads the combinatorial burden of contact timing from the MPC by learning acyclic gaits through trial and error in simulation. We show that only a minimal set of rewards and limited tuning are required to obtain effective policies. We validate the architecture in simulation across robotic platforms spanning 50 kg to 120 kg and different MPC implementations, observing the emergence of acyclic gaits and timing adaptations in flat-terrain legged and hybrid locomotion, and further demonstrating extensibility to non-flat terrains. Across all platforms, we achieve zero-shot sim-to-sim transfer without domain randomization, and we further demonstrate zero-shot sim-to-real transfer without domain randomization on Centauro, our 120 kg wheeled-legged humanoid robot. We make our software framework and evaluation results publicly available at https://github.com/AndrePatri/AugMPC.
- Abstract(参考訳): 本稿では,高レベルのRLエージェントが低レベルのロコモーションMPCに歩行およびナビゲーションコマンドを提供する,RL(Reinforcement Learning)とモデル予測制御(Model Predictive Control,MPC)を相互に結合する階層型アーキテクチャを提案する。
これにより、試行錯誤を通じて非循環歩行を学習することにより、MPCからの接触タイミングの組合せ負担を軽減できる。
効果的な政策を得るためには,最小限の報酬と限定的なチューニングしか必要としないことを示す。
我々は,50 kgから120 kgのロボットプラットフォームと異なるMPC実装にまたがるシミュレーションのアーキテクチャを検証し,平坦な地形とハイブリッドな移動における非周期的な歩行とタイミング適応の出現を観察し,さらに非平坦な地形への拡張性を示す。
全プラットフォームにわたって、ドメインランダム化なしでゼロショットのsim-to-sim転送を実現し、120kgの車輪付きヒューマノイドロボットであるCentauroにドメインランダム化せずに、ゼロショットのsim-to-sim転送を実証する。
ソフトウェアフレームワークと評価結果をhttps://github.com/AndrePatri/AugMPC.comで公開しています。
関連論文リスト
- CycleRL: Sim-to-Real Deep Reinforcement Learning for Robust Autonomous Bicycle Control [10.350603824555408]
CycleRLは、堅牢な自律自転車制御のための初めてのシミュレート・トゥ・リアルな深層強化学習フレームワークである。
シミュレーションでは、CycleRLは99.90%のバランス成功率、1.15の低ステアリング追尾誤差、0.18m/sの速度追尾誤差など、かなりの性能を達成する。
論文 参考訳(メタデータ) (2026-03-16T09:17:51Z) - Learning Sim-to-Real Humanoid Locomotion in 15 Minutes [51.500643119683225]
本稿では,FastSACとFastTD3という,非政治的RLアルゴリズムに基づくシンプルで実用的なレシピを提案する。
我々の単純なレシピは、何千もの並列環境において、政治外のRLアルゴリズムを大規模に安定化させる。
我々は,Unitree G1 と Booster T1 ロボット上でのヒューマノイド移動制御器のエンドツーエンドの迅速な学習を実演する。
論文 参考訳(メタデータ) (2025-12-01T18:55:17Z) - Simulating Environments with Reasoning Models for Agent Training [55.98861707136674]
トレーニング用の起動環境の構築は重く、脆く、進捗を制限します。
我々はSimia-SFTとSimia-RLの2つのフレームワークを提案する。
Simia-SFTとSimia-RLは、環境工学を使わずにスケーラブルなエージェントトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T18:29:57Z) - DrEureka: Language Model Guided Sim-To-Real Transfer [64.14314476811806]
シミュレーションで学んだ政策を現実世界に伝達することは、ロボットのスキルを大規模に獲得する上で有望な戦略である。
本稿では,Large Language Models (LLMs) を用いてシム・トゥ・リアル設計の自動化と高速化を行う。
本手法では,ヨガボールの上を歩行する四足歩行や四足歩行など,新しいロボットタスクを解くことができる。
論文 参考訳(メタデータ) (2024-06-04T04:53:05Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Combining model-predictive control and predictive reinforcement learning
for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文 参考訳(メタデータ) (2023-07-15T09:22:37Z) - Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。
提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文 参考訳(メタデータ) (2023-03-07T08:16:46Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Edge Federated Learning Via Unit-Modulus Over-The-Air Computation
(Extended Version) [64.76619508293966]
本稿では,効率の良いエッジフェデレーション学習を実現するために,UM-AirCompフレームワークを提案する。
ローカルモデルパラメータを同時にアップロードし、アナログビームフォーミングを通じてグローバルモデルパラメータを更新する。
車両間自動運転シミュレーションプラットフォームにおけるUM-AirCompの実装を実演する。
論文 参考訳(メタデータ) (2021-01-28T15:10:22Z) - RLOC: Terrain-Aware Legged Locomotion using Reinforcement Learning and
Optimal Control [6.669503016190925]
四元計画と制御のためのモデルベースとデータ駆動の統一的アプローチを提案する。
センサ情報と所望のベース速度コマンドを、強化学習ポリシーを用いて足踏み計画にマッピングする。
我々は、複雑な四足歩行システムであるANYmal Bの枠組みを訓練し、再訓練を必要とせず、より大きく重いロボットであるANYmal Cへの移動性を示す。
論文 参考訳(メタデータ) (2020-12-05T18:30:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。