Fugu-MT 論文翻訳(概要): Diffusion Model Predictive Control

論文の概要: Diffusion Model Predictive Control

arxiv url: http://arxiv.org/abs/2410.05364v1
Date: Mon, 7 Oct 2024 17:56:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 19:07:22.198066
Title: Diffusion Model Predictive Control
Title（参考訳）: 拡散モデル予測制御
Authors: Guangyao Zhou, Sivaramakrishnan Swaminathan, Rajkumar Vasudeva Raju, J. Swaroop Guntupalli, Wolfgang Lehrach, Joseph Ortiz, Antoine Dedieu, Miguel Lázaro-Gredilla, Kevin Murphy,
Abstract要約: Diffusion Model Predictive Control (D-MPC)は、マルチステップアクション提案とマルチステップダイナミックスモデルを学ぶ新しいMPCアプローチである。 MPCを用いた既存のモデルベースオフライン計画手法よりもはるかに優れた性能を示す。
参考スコア（独自算出の注目度）: 13.975529102354587
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose Diffusion Model Predictive Control (D-MPC), a novel MPC approach that learns a multi-step action proposal and a multi-step dynamics model, both using diffusion models, and combines them for use in online MPC. On the popular D4RL benchmark, we show performance that is significantly better than existing model-based offline planning methods using MPC and competitive with state-of-the-art (SOTA) model-based and model-free reinforcement learning methods. We additionally illustrate D-MPC's ability to optimize novel reward functions at run time and adapt to novel dynamics, and highlight its advantages compared to existing diffusion-based planning baselines.
Abstract（参考訳）: D-MPC(Diffusion Model Predictive Control:拡散モデル予測制御)は,多段階アクションモデルと多段階ダイナミックスモデルを学習し,これらをオンラインMPCで使用するために組み合わせた新しいMPC手法である。人気のD4RLベンチマークでは、MPCを用いた既存のモデルベースオフライン計画手法よりもはるかに優れた性能を示し、最新技術(SOTA)モデルベースおよびモデルフリー強化学習手法と競合することを示す。さらに、D-MPCが実行時に新しい報酬関数を最適化し、新しいダイナミクスに適応する能力についても説明し、既存の拡散ベースプランニングベースラインと比較してその利点を強調した。

関連論文リスト

Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。 i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-09T06:26:02Z)
Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文参考訳（メタデータ） (2025-05-26T03:42:20Z)
Unifying Model Predictive Path Integral Control, Reinforcement Learning, and Diffusion Models for Optimal Control and Planning [6.871390204787483]
我々は,Gibs測度の勾配に基づく最適化により,MPPI,RL,拡散モデルを結ぶ統一的な視点を確立する。まず,MPPIをスムーズなエネルギー関数上の勾配上昇として解釈できることを示す。次に、目的関数に指数変換を適用することにより、ポリシー勾配法がMPPIに還元されることを実証する。
論文参考訳（メタデータ） (2025-02-27T19:26:36Z)
Enhancing Offline Model-Based RL via Active Model Selection: A Bayesian Optimization Perspective [11.20804263996665]
オフラインモデルベース強化学習(MBRL)は、事前収集データのみから、適切なパフォーマンスのポリシを学習するための競争フレームワークとして機能する。我々は,オンラインインタラクション予算の少ないオフラインMBRLにおけるモデル選択を強化する,アクティブモデル選択フレームワークBOMSを提案する。 BOMSは、オフライントレーニングデータのわずか1%-2.5%に匹敵する少額のオンラインインタラクションによって、ベースラインメソッドよりも改善されていることを示す。
論文参考訳（メタデータ） (2025-02-17T06:34:58Z)
Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文参考訳（メタデータ） (2024-05-30T03:57:29Z)
Task-optimal data-driven surrogate models for eNMPC via differentiable simulation and optimization [42.72938925647165]
特定の制御タスクにおいて最適な性能を示すために,クープマンシュロゲートモデルのエンドツーエンド学習法を提案する。我々は,政策最適化を支援するために,力学シミュレーションモデルに基づく環境の潜在的な微分可能性を利用する訓練アルゴリズムを用いる。
論文参考訳（メタデータ） (2024-03-21T14:28:43Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Evaluating model-based planning and planner amortization for continuous control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文参考訳（メタデータ） (2021-10-07T12:00:40Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)
Bidirectional Model-based Policy Optimization [30.732572976324516]
モデルに基づく強化学習アプローチは、計画と意思決定をサポートするためにフォワードダイナミクスモデルを活用する。本稿では,前方モデル予測における精度への依存を減らすために,後方ダイナミクスモデルを構築することを提案する。本稿では,二方向性モデルベースポリシー (BMPO) と呼ばれる新しい手法を開発し,前向きモデルと後向きモデルの両方を用いて,政策最適化のための短い分岐ロールアウトを生成する。
論文参考訳（メタデータ） (2020-07-04T03:34:09Z)
Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs [30.36381338938319]
ニューラル常微分方程式(ODE)を用いた連続時間力学のモデリングのための2つの解を提案する。我々のモデルは、連続時間力学を正確に特徴付け、少量のデータを用いて高性能なポリシーを開発することができる。各種連続時間領域における手法の有効性を実験的に実証した。
論文参考訳（メタデータ） (2020-06-29T17:21:43Z)
Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文参考訳（メタデータ） (2020-06-09T18:30:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。