論文の概要: Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making
- arxiv url: http://arxiv.org/abs/2512.08280v1
- Date: Tue, 09 Dec 2025 06:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.835191
- Title: Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making
- Title(参考訳): オフライン意思決定における予測制御のためのモデルベース拡散サンプリング
- Authors: Haldun Balim, Na Li, Yilun Du,
- Abstract要約: オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。
i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.998030470623384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline decision-making requires synthesizing reliable behaviors from fixed datasets without further interaction, yet existing generative approaches often yield trajectories that are dynamically infeasible. We propose Model Predictive Diffuser (MPDiffuser), a compositional model-based diffusion framework consisting of: (i) a planner that generates diverse, task-aligned trajectories; (ii) a dynamics model that enforces consistency with the underlying system dynamics; and (iii) a ranker module that selects behaviors aligned with the task objectives. MPDiffuser employs an alternating diffusion sampling scheme, where planner and dynamics updates are interleaved to progressively refine trajectories for both task alignment and feasibility during the sampling process. We also provide a theoretical rationale for this procedure, showing how it balances fidelity to data priors with dynamics consistency. Empirically, the compositional design improves sample efficiency, as it leverages even low-quality data for dynamics learning and adapts seamlessly to novel dynamics. We evaluate MPDiffuser on both unconstrained (D4RL) and constrained (DSRL) offline decision-making benchmarks, demonstrating consistent gains over existing approaches. Furthermore, we present a preliminary study extending MPDiffuser to vision-based control tasks, showing its potential to scale to high-dimensional sensory inputs. Finally, we deploy our method on a real quadrupedal robot, showcasing its practicality for real-world control.
- Abstract(参考訳): オフラインの意思決定は、さらなる相互作用なしに、固定されたデータセットから信頼できる振る舞いを合成する必要があるが、既存の生成的アプローチは、しばしば動的に実現不可能な軌跡を生み出す。
構成モデルに基づく拡散フレームワークであるモデル予測ディフューザ(MPDiffuser)を提案する。
一 多様なタスク整合軌道を生成するプランナー
(ii)基礎となるシステムダイナミクスとの整合性を強制するダイナミクスモデル、及び
(iii)タスクの目的に沿った動作を選択するローダモジュール。
MPDiffuserは、繰り返し拡散サンプリングスキームを採用し、プランナーとダイナミクスの更新をインターリーブして、サンプリングプロセス中にタスクアライメントと実現可能性の両方のために軌道を徐々に洗練する。
また、この手順の理論的根拠として、データ先行と動的整合性との整合性を示す。
経験的に、構成設計は、低品質のデータでも動的学習に活用し、新しい力学にシームレスに適応するため、サンプル効率を向上させる。
我々は、制約なし(D4RL)と制約付き(DSRL)の両方のオフライン意思決定ベンチマーク上でMPDiffuserを評価し、既存のアプローチよりも一貫した利得を示す。
さらに,MPDiffuserを視覚ベースの制御タスクに拡張する予備的研究を行い,高次元感覚入力への拡張の可能性を示した。
最後に,本手法を実際の四足歩行ロボットに展開し,実世界制御のための実用性を示す。
関連論文リスト
- Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - Controllable Motion Generation via Diffusion Modal Coupling [19.534234002173314]
マルチモーダルな事前分布を利用して拡散モデルの制御性を向上する新しいフレームワークを提案する。
Maze2D環境におけるデータセットとマルチタスク制御を用いた動作予測手法の評価を行った。
論文 参考訳(メタデータ) (2025-03-04T07:22:34Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - FlowDAS: A Stochastic Interpolant-based Framework for Data Assimilation [15.64941169350615]
データ同化(DA)は、PDEが支配するシステムの状態を推定するために、動的モデルと観測を統合する。
FlowDASは、間補体を使用して状態遷移ダイナミクスを学習する生成DAフレームワークである。
本研究では,FlowDASがモデル駆動法,ニューラル演算子,スコアベースベースラインを超える精度と物理的妥当性を示す。
論文 参考訳(メタデータ) (2025-01-13T05:03:41Z) - Off-dynamics Conditional Diffusion Planners [15.321049697197447]
この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。
本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T04:56:43Z) - MetaDiffuser: Diffusion Model as Conditional Planner for Offline Meta-RL [25.76141096396645]
オフラインメタRL(MetaDiffuser)のためのタスク指向条件付き拡散プランナを提案する。
提案するフレームワークは,テストタスクから収集したウォームスタートデータの品質に対するロバストさを享受する。
MuJoCoベンチマークの実験結果は、MetaDiffuserが他の強力なオフラインメタRLベースラインより優れていることを示している。
論文 参考訳(メタデータ) (2023-05-31T15:01:38Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。