論文の概要: Diffusion Model Predictive Control
- arxiv url: http://arxiv.org/abs/2410.05364v1
- Date: Mon, 7 Oct 2024 17:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:07:22.198066
- Title: Diffusion Model Predictive Control
- Title(参考訳): 拡散モデル予測制御
- Authors: Guangyao Zhou, Sivaramakrishnan Swaminathan, Rajkumar Vasudeva Raju, J. Swaroop Guntupalli, Wolfgang Lehrach, Joseph Ortiz, Antoine Dedieu, Miguel Lázaro-Gredilla, Kevin Murphy,
- Abstract要約: Diffusion Model Predictive Control (D-MPC)は、マルチステップアクション提案とマルチステップダイナミックスモデルを学ぶ新しいMPCアプローチである。
MPCを用いた既存のモデルベースオフライン計画手法よりもはるかに優れた性能を示す。
- 参考スコア(独自算出の注目度): 13.975529102354587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Diffusion Model Predictive Control (D-MPC), a novel MPC approach that learns a multi-step action proposal and a multi-step dynamics model, both using diffusion models, and combines them for use in online MPC. On the popular D4RL benchmark, we show performance that is significantly better than existing model-based offline planning methods using MPC and competitive with state-of-the-art (SOTA) model-based and model-free reinforcement learning methods. We additionally illustrate D-MPC's ability to optimize novel reward functions at run time and adapt to novel dynamics, and highlight its advantages compared to existing diffusion-based planning baselines.
- Abstract(参考訳): D-MPC(Diffusion Model Predictive Control:拡散モデル予測制御)は,多段階アクションモデルと多段階ダイナミックスモデルを学習し,これらをオンラインMPCで使用するために組み合わせた新しいMPC手法である。
人気のD4RLベンチマークでは、MPCを用いた既存のモデルベースオフライン計画手法よりもはるかに優れた性能を示し、最新技術(SOTA)モデルベースおよびモデルフリー強化学習手法と競合することを示す。
さらに、D-MPCが実行時に新しい報酬関数を最適化し、新しいダイナミクスに適応する能力についても説明し、既存の拡散ベースプランニングベースラインと比較してその利点を強調した。
関連論文リスト
- Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Task-optimal data-driven surrogate models for eNMPC via differentiable simulation and optimization [42.72938925647165]
特定の制御タスクにおいて最適な性能を示すために,クープマンシュロゲートモデルのエンドツーエンド学習法を提案する。
我々は,政策最適化を支援するために,力学シミュレーションモデルに基づく環境の潜在的な微分可能性を利用する訓練アルゴリズムを用いる。
論文 参考訳(メタデータ) (2024-03-21T14:28:43Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Bidirectional Model-based Policy Optimization [30.732572976324516]
モデルに基づく強化学習アプローチは、計画と意思決定をサポートするためにフォワードダイナミクスモデルを活用する。
本稿では,前方モデル予測における精度への依存を減らすために,後方ダイナミクスモデルを構築することを提案する。
本稿では,二方向性モデルベースポリシー (BMPO) と呼ばれる新しい手法を開発し,前向きモデルと後向きモデルの両方を用いて,政策最適化のための短い分岐ロールアウトを生成する。
論文 参考訳(メタデータ) (2020-07-04T03:34:09Z) - Model-based Reinforcement Learning for Semi-Markov Decision Processes
with Neural ODEs [30.36381338938319]
ニューラル常微分方程式(ODE)を用いた連続時間力学のモデリングのための2つの解を提案する。
我々のモデルは、連続時間力学を正確に特徴付け、少量のデータを用いて高性能なポリシーを開発することができる。
各種連続時間領域における手法の有効性を実験的に実証した。
論文 参考訳(メタデータ) (2020-06-29T17:21:43Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。