論文の概要: Real-Time Gait Adaptation for Quadrupeds using Model Predictive Control and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.20706v1
- Date: Thu, 23 Oct 2025 16:17:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.330108
- Title: Real-Time Gait Adaptation for Quadrupeds using Model Predictive Control and Reinforcement Learning
- Title(参考訳): モデル予測制御と強化学習を用いた四輪車のリアルタイム歩行適応
- Authors: Ganga Nair B, Prakrut Kotecha, Shishir Kolathaya,
- Abstract要約: 連続歩行空間におけるリアルタイム歩行適応のための最適化フレームワークを提案する。
モデル予測パス積分(MPPI)アルゴリズムとDreamerモジュールを組み合わせることで、四足歩行に対する適応的かつ最適なポリシーを生成する。
我々は、Unitree Go1上でのシミュレーションの枠組みを評価し、様々な目標速度で最大36.48%のエネルギー消費の削減を実証した。
- 参考スコア(独自算出の注目度): 2.5845893156827158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free reinforcement learning (RL) has enabled adaptable and agile quadruped locomotion; however, policies often converge to a single gait, leading to suboptimal performance. Traditionally, Model Predictive Control (MPC) has been extensively used to obtain task-specific optimal policies but lacks the ability to adapt to varying environments. To address these limitations, we propose an optimization framework for real-time gait adaptation in a continuous gait space, combining the Model Predictive Path Integral (MPPI) algorithm with a Dreamer module to produce adaptive and optimal policies for quadruped locomotion. At each time step, MPPI jointly optimizes the actions and gait variables using a learned Dreamer reward that promotes velocity tracking, energy efficiency, stability, and smooth transitions, while penalizing abrupt gait changes. A learned value function is incorporated as terminal reward, extending the formulation to an infinite-horizon planner. We evaluate our framework in simulation on the Unitree Go1, demonstrating an average reduction of up to 36.48\% in energy consumption across varying target speeds, while maintaining accurate tracking and adaptive, task-appropriate gaits.
- Abstract(参考訳): モデルフリー強化学習(RL)は適応性とアジャイルの四足歩行を可能にするが、政策はしばしば単一の歩留まりに収束し、準最適性能をもたらす。
従来、モデル予測制御(MPC)はタスク固有の最適ポリシーを得るために広く用いられてきたが、様々な環境に適応する能力に欠けていた。
これらの制約に対処するために,モデル予測パス積分(MPPI)アルゴリズムとドリーマーモジュールを併用して,四足歩行に対する適応的かつ最適なポリシーを生成する,連続歩行空間におけるリアルタイム歩行適応のための最適化フレームワークを提案する。
それぞれのタイムステップでMPPIは、速度追跡、エネルギー効率、安定性、スムーズな遷移を促進する学習されたドリーマー報酬を使用して、行動と歩行変数を共同で最適化し、急激な歩行の変化を罰する。
学習値関数は端末報酬として組み込まれ、定式化を無限水平プランナーに拡張する。
我々は,Unitree Go1上でのシミュレーションの枠組みを評価し,目標速度に応じて最大36.48 %のエネルギー消費を削減し,正確なトラッキングとタスクに適した歩行を維持できることを示した。
関連論文リスト
- Flexible Locomotion Learning with Diffusion Model Predictive Control [46.432397190673505]
本稿では,学習した生成拡散モデルを計画に先立って近似力学として活用する拡散MPCを提案する。
我々の設計では、テスト時適応性が強く、プランナーは、再訓練することなく、新しい報酬仕様に調整できる。
我々はDiffusion-MPCを実世界で検証し、強い移動と柔軟な適応を示す。
論文 参考訳(メタデータ) (2025-10-05T14:51:13Z) - Multi-Objective Reinforcement Learning for Adaptable Personalized Autonomous Driving [9.637200409973804]
既存のエンドツーエンドの運転アプローチは、事前に定義された運転スタイルに依存したり、適応のために継続的なユーザーフィードバックを必要としたりすることが多い。
本稿では,動的・文脈依存的嗜好をサポートする自律運転のための新しい学習手法を提案する。
論文 参考訳(メタデータ) (2025-05-08T13:16:37Z) - MULE: Multi-terrain and Unknown Load Adaptation for Effective Quadrupedal Locomotion [1.479858319622657]
四足歩行ロボットは、様々な地形にまたがる荷積み作業にますます利用されている。
本研究では,四足歩行ロボットが様々なペイロードと多様な地形に適応できる適応強化学習フレームワークを提案する。
提案手法はIsaac Gymの大規模シミュレーション実験と,Unitree Go1の4倍体上での実際のハードウェア展開により検証する。
論文 参考訳(メタデータ) (2025-05-01T12:41:35Z) - Unsupervised Parameter Efficient Source-free Post-pretraining [52.27955794126508]
教師なしのUpStepを紹介します。
ソースドメインからターゲットドメインへのベースモデルを適応するための、ソースフリーのポストプレトレーニングアプローチ。
私たちは、Imagenetをベースモデルとして、教師付きおよび教師なしの両方でトレーニングされた、さまざまな一般的なバックボーンアーキテクチャを使用します。
論文 参考訳(メタデータ) (2025-02-28T18:54:51Z) - MetaFollower: Adaptable Personalized Autonomous Car Following [63.90050686330677]
適応型パーソナライズされた自動車追従フレームワークであるMetaFollowerを提案する。
まず,モデルに依存しないメタラーニング(MAML)を用いて,様々なCFイベントから共通運転知識を抽出する。
さらに、Long Short-Term Memory (LSTM) と Intelligent Driver Model (IDM) を組み合わせて、時間的不均一性を高い解釈性で反映する。
論文 参考訳(メタデータ) (2024-06-23T15:30:40Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Motion Style Transfer: Modular Low-Rank Adaptation for Deep Motion
Forecasting [79.56014465244644]
本稿では,新しい領域への深部動き予測モデルを効率的に適用するための伝達学習手法を提案する。
エンコーダ全体を更新する従来の微調整アプローチとは異なり、主な考え方は調整可能なパラメータの量を減らすことである。
提案するアダプタ設計であるMoSAは,いくつかの予測ベンチマークにおいて,先行手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-06T16:14:17Z) - Meta-Reinforcement Learning for Adaptive Motor Control in Changing Robot
Dynamics and Environments [3.5309638744466167]
この研究は、ロバストな移動のための異なる条件に制御ポリシーを適応させるメタラーニングアプローチを開発した。
提案手法は, インタラクションモデルを更新し, 推定された状態-作用軌道のアクションをサンプル化し, 最適なアクションを適用し, 報酬を最大化する。
論文 参考訳(メタデータ) (2021-01-19T12:57:12Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。