Fugu-MT 論文翻訳(概要): Cost-Matching Model Predictive Control for Efficient Reinforcement Learning in Humanoid Locomotion

論文の概要: Cost-Matching Model Predictive Control for Efficient Reinforcement Learning in Humanoid Locomotion

arxiv url: http://arxiv.org/abs/2603.28243v1
Date: Mon, 30 Mar 2026 10:05:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.332005
Title: Cost-Matching Model Predictive Control for Efficient Reinforcement Learning in Humanoid Locomotion
Title（参考訳）: 人型ロコモーションにおける効率的な強化学習のためのコストマッチングモデル予測制御
Authors: Wenqi Cai, Kyriakos G. Vamvoudakis, Sébastien Gros, Anthony Tzes,
Abstract要約: モデル予測制御(MPC)に基づく強化学習フレームワークにおいて,最適なヒューマノイド移動のためのコストマッチング手法を提案する。高忠実度閉ループデータから得られる作用値関数を近似するために、遠心力学を用いたパラメータ化MPC定式化を訓練する。その結果, モデルミスマッチと外乱に対するロコモーション性能とロバスト性の改善が示された。
参考スコア（独自算出の注目度）: 15.125805248577278
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a cost-matching approach for optimal humanoid locomotion within a Model Predictive Control (MPC)-based Reinforcement Learning (RL) framework. A parameterized MPC formulation with centroidal dynamics is trained to approximate the action-value function obtained from high-fidelity closed-loop data. Specifically, the MPC cost-to-go is evaluated along recorded state-action trajectories, and the parameters are updated to minimize the discrepancy between MPC-predicted values and measured returns. This formulation enables efficient gradient-based learning while avoiding the computational burden of repeatedly solving the MPC problem during training. The proposed method is validated in simulation using a commercial humanoid platform. Results demonstrate improved locomotion performance and robustness to model mismatch and external disturbances compared with manually tuned baselines.
Abstract（参考訳）: 本稿では,モデル予測制御(MPC)に基づく強化学習(RL)フレームワークにおいて,最適なヒューマノイド移動を実現するためのコストマッチング手法を提案する。高忠実度閉ループデータから得られる作用値関数を近似するために、遠心力学を用いたパラメータ化MPC定式化を訓練する。具体的には、MPCのコスト・ツー・ゴーを記録された状態動作軌跡に沿って評価し、パラメータを更新して、MPC予測値と測定されたリターンとの差を最小限に抑える。この定式化は、訓練中に繰り返しMPC問題を解く際の計算負担を回避しつつ、効率的な勾配に基づく学習を可能にする。提案手法は商用のヒューマノイドプラットフォームを用いてシミュレーションにより検証した。その結果,手動で調整したベースラインと比較して,ロコモーション性能が向上し,ミスマッチや外乱をモデル化する堅牢性が向上した。

関連論文リスト

Fine-Tuning of Neural Network Approximate MPC without Retraining via Bayesian Optimization [81.35990332700389]
近似モデル予測制御(AMPC)は、MPCの動作をニューラルネットワークで模倣することを目的としている。デプロイメント中、基盤となるMPCのパラメータは通常、微調整されなければならない。最近の研究は、MPC最適化問題の近似感度を用いてAMPCを調整することなく適用することでこの問題に対処している。
論文参考訳（メタデータ） (2025-12-16T12:24:08Z)
Bisimulation metric for Model Predictive Control [44.301098448479195]
Bisimulation Metric for Model Predictive Control (BS-MPC) は、目的関数にbisimulation metric lossを組み込んでエンコーダを直接最適化する新しい手法である。 BS-MPCは、トレーニング時間を削減することにより、トレーニング安定性、入力ノイズに対する堅牢性、および計算効率を向上させる。我々は,DeepMind Control Suiteから連続制御および画像ベースタスクのBS-MPCを評価する。
論文参考訳（メタデータ） (2024-10-06T17:12:10Z)
Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。 PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-04-01T07:49:11Z)
Task-optimal data-driven surrogate models for eNMPC via differentiable simulation and optimization [42.72938925647165]
特定の制御タスクにおいて最適な性能を示すために,クープマンシュロゲートモデルのエンドツーエンド学習法を提案する。我々は,既存の経済非線形モデル予測制御(eNMPC)のケーススタディにおいて,他のトレーニングアルゴリズムと比較することにより,本手法の性能を評価する。
論文参考訳（メタデータ） (2024-03-21T14:28:43Z)
End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-03T10:21:53Z)
Evaluating model-based planning and planner amortization for continuous control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文参考訳（メタデータ） (2021-10-07T12:00:40Z)
Blending MPC & Value Function Approximation for Efficient Reinforcement Learning [42.429730406277315]
モデル予測制御(MPC)は、複雑な実世界のシステムを制御する強力なツールである。モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。我々は,本手法がmpcに匹敵する性能と真のダイナミクスを両立できることを示す。
論文参考訳（メタデータ） (2020-12-10T11:32:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。