論文の概要: Diffusion Modulation via Environment Mechanism Modeling for Planning
- arxiv url: http://arxiv.org/abs/2602.20422v1
- Date: Mon, 23 Feb 2026 23:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.555004
- Title: Diffusion Modulation via Environment Mechanism Modeling for Planning
- Title(参考訳): 計画のための環境メカニズムモデリングによる拡散変調
- Authors: Hanping Zhang, Yuhong Guo,
- Abstract要約: 環境メカニズムモデリング(DMEMM)による拡散変調と呼ばれる新しい拡散型計画法を提案する。
DMEMMは、重要なRL環境機構、特に遷移力学と報酬関数を組み込むことで、拡散モデルのトレーニングを変調する。
実験結果から,DMEMMはオフライン強化学習による計画立案において最先端の性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 23.628360655654507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have shown promising capabilities in trajectory generation for planning in offline reinforcement learning (RL). However, conventional diffusion-based planning methods often fail to account for the fact that generating trajectories in RL requires unique consistency between transitions to ensure coherence in real environments. This oversight can result in considerable discrepancies between the generated trajectories and the underlying mechanisms of a real environment. To address this problem, we propose a novel diffusion-based planning method, termed as Diffusion Modulation via Environment Mechanism Modeling (DMEMM). DMEMM modulates diffusion model training by incorporating key RL environment mechanisms, particularly transition dynamics and reward functions. Experimental results demonstrate that DMEMM achieves state-of-the-art performance for planning with offline reinforcement learning.
- Abstract(参考訳): 拡散モデルは、オフライン強化学習(RL)における計画のための軌道生成において有望な能力を示している。
しかしながら、従来の拡散に基づく計画手法は、実環境におけるコヒーレンスを保証するために、RLにおける軌道の生成には遷移間の一意的な一貫性が必要であるという事実を考慮にいられないことが多い。
この監視は、生成された軌跡と実際の環境の基盤となるメカニズムの間にかなりの相違をもたらす可能性がある。
そこで本研究では,環境メカニズムモデリング(DMEMM)による拡散変調と呼ばれる,拡散に基づく新しい計画手法を提案する。
DMEMMは、重要なRL環境機構、特に遷移力学と報酬関数を組み込むことで、拡散モデルのトレーニングを変調する。
実験結果から,DMEMMはオフライン強化学習による計画立案において最先端の性能を発揮することが示された。
関連論文リスト
- Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。
i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-09T06:26:02Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning [39.53836535326121]
In-context Model-based RL frameworkであるDistillation for In-Context Planning (DICP)を提案する。
以上の結果から,DICPはベースラインよりも環境相互作用を著しく少なく抑えながら,最先端の性能を実現することが示唆された。
論文 参考訳(メタデータ) (2025-02-26T10:16:57Z) - Monte Carlo Tree Diffusion for System 2 Planning [57.50512800900167]
モンテカルロ木探索(MCTS)の適応探索機能と拡散モデルの生成強度を統合する新しいフレームワークであるモンテカルロ木拡散(MCTD)を紹介する。
本手法は,木構造化プロセスとしてデノナイジングを再認識し,部分的にデノナイジングした計画を反復的に評価し,刈り取り,精錬する。
論文 参考訳(メタデータ) (2025-02-11T02:51:42Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Neural Flow Diffusion Models: Learnable Forward Process for Improved Diffusion Modelling [2.1779479916071067]
より広い範囲のプロセスをサポートすることで拡散モデルを強化する新しいフレームワークを提案する。
また,前処理を学習するための新しいパラメータ化手法を提案する。
結果はNFDMの汎用性と幅広い応用の可能性を評価する。
論文 参考訳(メタデータ) (2024-04-19T15:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。