論文の概要: Implicit Maximum Likelihood Estimation for Real-time Generative Model Predictive Control
- arxiv url: http://arxiv.org/abs/2603.13733v1
- Date: Sat, 14 Mar 2026 03:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.369935
- Title: Implicit Maximum Likelihood Estimation for Real-time Generative Model Predictive Control
- Title(参考訳): 実時間生成モデル予測制御のためのインプシット最大精度推定
- Authors: Grayson Lee, Minh Bui, Shuzi Zhou, Yankai Li, Mo Chen, Ke Li,
- Abstract要約: Implicit Maximum Likelihood Estimation (IMLE) は、計画のための新たな生成モデリング手法である。
本結果は,IMLEが標準オフライン強化学習ベンチマーク上での競合性能を実証するものである。
さらに, 動的環境下での高速かつ適応的な計画生成を実現する方法を示すとともに, リアルタイムに動作するクローズドループヒューマンナビゲーションシナリオにおけるIMLEの検証を行った。
- 参考スコア(独自算出の注目度): 5.692340907039085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based models have recently shown strong performance in trajectory planning, as they are capable of capturing diverse, multimodal distributions of complex behaviors. A key limitation of these models is their slow inference speed, which results from the iterative denoising process. This makes them less suitable for real-time applications such as closed-loop model predictive control (MPC), where plans must be generated quickly and adapted continuously to a changing environment. In this paper, we investigate Implicit Maximum Likelihood Estimation (IMLE) as an alternative generative modeling approach for planning. IMLE offers strong mode coverage while enabling inference that is two orders of magnitude faster, making it particularly well suited for real-time MPC tasks. Our results demonstrate that IMLE achieves competitive performance on standard offline reinforcement learning benchmarks compared to the standard diffusion-based planner, while substantially improving planning speed in both open-loop and closed-loop settings. We further validate IMLE in a closed-loop human navigation scenario, operating in real-time, demonstrating how it enables rapid and adaptive plan generation in dynamic environments.
- Abstract(参考訳): 拡散に基づくモデルは、複雑な振る舞いの多様なマルチモーダル分布を捉えることができるため、最近、軌道計画において強い性能を示している。
これらのモデルの鍵となる制限は、その緩やかな推論速度であり、これは反復的なデノゲーションプロセスの結果である。
これにより、クローズドループモデル予測制御(MPC)のようなリアルタイムアプリケーションでは、計画が迅速に生成され、変化する環境に継続的に適応する必要がある。
本稿では,Implicit Maximum Likelihood Estimation (IMLE) を計画のための代替生成モデル手法として検討する。
IMLEは2桁の高速な推論が可能で、特にリアルタイムMPCタスクに適している。
その結果、IMLEは標準のオフライン強化学習ベンチマークにおいて、標準の拡散ベースプランナと比較して競合性能が向上し、オープンループとクローズループの両方の設定における計画速度が大幅に向上することを示した。
さらに, 動的環境下での高速かつ適応的な計画生成を実現する方法を示すとともに, リアルタイムに動作するクローズドループヒューマンナビゲーションシナリオにおけるIMLEの検証を行った。
関連論文リスト
- DScheLLM: Enabling Dynamic Scheduling through a Fine-Tuned Dual-System Large language Model [2.9367859148626945]
本稿では,マルチシステム(高速スロー)推論アーキテクチャにおいて,微調整された大規模言語モデルを活用する動的スケジューリング手法DScheLLMを提案する。
動的イベントを処理するために、統合された大きな言語モデルベースのフレームワークが構築されている。
標準的なジョブショップスケジューリングベンチマークの実験的評価は、高速思考モードが高品質なスケジュールを効率的に生成できることを実証している。
論文 参考訳(メタデータ) (2026-01-14T03:02:22Z) - Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving [54.46325690390831]
本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。
MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。
MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
論文 参考訳(メタデータ) (2025-11-26T17:01:41Z) - Flexible Locomotion Learning with Diffusion Model Predictive Control [46.432397190673505]
本稿では,学習した生成拡散モデルを計画に先立って近似力学として活用する拡散MPCを提案する。
我々の設計では、テスト時適応性が強く、プランナーは、再訓練することなく、新しい報酬仕様に調整できる。
我々はDiffusion-MPCを実世界で検証し、強い移動と柔軟な適応を示す。
論文 参考訳(メタデータ) (2025-10-05T14:51:13Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting [52.6508222408558]
Eucidated Rolling Diffusion Models (ERDM)を紹介する。
ERDMはEucidated Diffusion Models (EDM) の原理的, 性能的設計とローリング予測構造を統一する最初のフレームワークである
2D Navier-StokesシミュレーションとERA5グローバル気象予報の1.5円解像度では、ERDMはキー拡散ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-24T21:44:31Z) - Improving planning and MBRL with temporally-extended actions [1.8047694351309207]
連続時間システムは離散時間力学を用いてモデル化されることが多いが、精度を維持するには小さなシミュレーションステップが必要である。
これまでの作業では、個別のアクション期間を決定するためにポリシーが学習されたアクションリピートを使用して、この問題に部分的に対処してきた。
本稿では、時間的に拡張されたアクションを使用して、連続的な決定時間を直接制御し、プランナーが追加の最適化変数としてアクションの持続時間を扱わせることを提案する。
論文 参考訳(メタデータ) (2025-05-21T16:59:32Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。