論文の概要: Flexible Locomotion Learning with Diffusion Model Predictive Control
- arxiv url: http://arxiv.org/abs/2510.04234v1
- Date: Sun, 05 Oct 2025 14:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.535165
- Title: Flexible Locomotion Learning with Diffusion Model Predictive Control
- Title(参考訳): 拡散モデル予測制御によるフレキシブルロコモーション学習
- Authors: Runhan Huang, Haldun Balim, Heng Yang, Yilun Du,
- Abstract要約: 本稿では,学習した生成拡散モデルを計画に先立って近似力学として活用する拡散MPCを提案する。
我々の設計では、テスト時適応性が強く、プランナーは、再訓練することなく、新しい報酬仕様に調整できる。
我々はDiffusion-MPCを実世界で検証し、強い移動と柔軟な適応を示す。
- 参考スコア(独自算出の注目度): 46.432397190673505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legged locomotion demands controllers that are both robust and adaptable, while remaining compatible with task and safety considerations. However, model-free reinforcement learning (RL) methods often yield a fixed policy that can be difficult to adapt to new behaviors at test time. In contrast, Model Predictive Control (MPC) provides a natural approach to flexible behavior synthesis by incorporating different objectives and constraints directly into its optimization process. However, classical MPC relies on accurate dynamics models, which are often difficult to obtain in complex environments and typically require simplifying assumptions. We present Diffusion-MPC, which leverages a learned generative diffusion model as an approximate dynamics prior for planning, enabling flexible test-time adaptation through reward and constraint based optimization. Diffusion-MPC jointly predicts future states and actions; at each reverse step, we incorporate reward planning and impose constraint projection, yielding trajectories that satisfy task objectives while remaining within physical limits. To obtain a planning model that adapts beyond imitation pretraining, we introduce an interactive training algorithm for diffusion based planner: we execute our reward-and-constraint planner in environment, then filter and reweight the collected trajectories by their realized returns before updating the denoiser. Our design enables strong test-time adaptability, allowing the planner to adjust to new reward specifications without retraining. We validate Diffusion-MPC on real world, demonstrating strong locomotion and flexible adaptation.
- Abstract(参考訳): Legged Locomotionは、堅牢かつ適応性がありながら、タスクや安全性の考慮事項と互換性のあるコントローラーを要求する。
しかし、モデルフリー強化学習(RL)手法は、テスト時に新しい振る舞いに適応することが難しいような固定されたポリシーをもたらすことが多い。
対照的に、モデル予測制御(MPC)は、異なる目的や制約を直接最適化プロセスに組み込むことで、柔軟な振る舞い合成に自然なアプローチを提供する。
しかし、古典的なMPCは正確な力学モデルに依存しており、複雑な環境では入手が困難であり、典型的には仮定を単純化する必要がある。
本稿では、学習した生成拡散モデルを計画に先立って近似力学として活用し、報酬と制約に基づく最適化による柔軟なテスト時間適応を可能にするDiffusion-MPCを提案する。
拡散-MPCは、将来の状態と行動を共同で予測し、それぞれの逆ステップで報酬計画と制約予測を組み込み、物理的限界内に留まりながらタスク目標を満たす軌道を導出する。
模擬事前学習を超越した計画モデルを得るため,拡散型プランナーのための対話型トレーニングアルゴリズムを導入し,環境下で報酬・制約プランナーを実行し,デノワザを更新する前に実際のリターンによって収集されたトラジェクトリをフィルタリング・重み付けする。
我々の設計では、テスト時適応性が強く、プランナーは、再訓練することなく、新しい報酬仕様に調整できる。
我々はDiffusion-MPCを実世界で検証し、強い移動と柔軟な適応を示す。
関連論文リスト
- ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Simulation-Driven Reinforcement Learning in Queuing Network Routing Optimization [0.0]
本研究では、複雑な待ち行列ネットワークシステムにおけるルーティング決定を最適化するためのシミュレーション駆動強化学習(RL)フレームワークの開発に焦点をあてる。
我々は、Dyna-DDPG(Dyna-DDPG)とDyna-DDPG(Dyna-DDPG)を組み合わせた、Deep Deterministic Policy Gradient(DDPG)を利用したロバストなRLアプローチを提案する。
包括的な実験と厳密な評価は、効果的なルーティングポリシーを迅速に学習するフレームワークの能力を示している。
論文 参考訳(メタデータ) (2025-07-24T20:32:47Z) - Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。
我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文 参考訳(メタデータ) (2025-06-23T18:17:39Z) - FORT: Forward-Only Regression Training of Normalizing Flows [85.66894616735752]
我々は,古典正規化フローを,精度の高い一段階生成モデルとして再考する。
本稿では,従来の最大度学習で用いられる可変式の変更を計算する必要のない,スケーラブルな学習目標を提案する。
論文 参考訳(メタデータ) (2025-06-01T20:32:27Z) - Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning [39.53836535326121]
In-context Model-based RL frameworkであるDistillation for In-Context Planning (DICP)を提案する。
以上の結果から,DICPはベースラインよりも環境相互作用を著しく少なく抑えながら,最先端の性能を実現することが示唆された。
論文 参考訳(メタデータ) (2025-02-26T10:16:57Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
拡散予測制御(Diffusion predictive control with constraints,DPCC)は、拡散に基づく制御のアルゴリズムである。
DPCCは,新しいテスト時間制約を満たすために,既存の手法よりも優れた性能を示すロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。