論文の概要: Unifying Model Predictive Path Integral Control, Reinforcement Learning, and Diffusion Models for Optimal Control and Planning
- arxiv url: http://arxiv.org/abs/2502.20476v1
- Date: Thu, 27 Feb 2025 19:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:41:24.427622
- Title: Unifying Model Predictive Path Integral Control, Reinforcement Learning, and Diffusion Models for Optimal Control and Planning
- Title(参考訳): 最適制御と計画のための予測経路積分制御・強化学習・拡散モデルの統合
- Authors: Yankai Li, Mo Chen,
- Abstract要約: 我々は,Gibs測度の勾配に基づく最適化により,MPPI,RL,拡散モデルを結ぶ統一的な視点を確立する。
まず,MPPIをスムーズなエネルギー関数上の勾配上昇として解釈できることを示す。
次に、ポリシーパラメータを固定初期状態下で制御変数として扱う場合、ポリシー勾配法がMPPIに還元されることを示す。
- 参考スコア(独自算出の注目度): 6.871390204787483
- License:
- Abstract: Model Predictive Path Integral (MPPI) control, Reinforcement Learning (RL), and Diffusion Models have each demonstrated strong performance in trajectory optimization, decision-making, and motion planning. However, these approaches have traditionally been treated as distinct methodologies with separate optimization frameworks. In this work, we establish a unified perspective that connects MPPI, RL, and Diffusion Models through gradient-based optimization on the Gibbs measure. We first show that MPPI can be interpreted as performing gradient ascent on a smoothed energy function. We then demonstrate that Policy Gradient methods reduce to MPPI when treating policy parameters as control variables under a fixed initial state. Additionally, we establish that the reverse sampling process in diffusion models follows the same update rule as MPPI.
- Abstract(参考訳): モデル予測経路積分(MPPI)制御、強化学習(RL)、拡散モデルはそれぞれ、軌道最適化、意思決定、運動計画において強い性能を示した。
しかし、これらのアプローチは伝統的に異なる最適化フレームワークを持つ別の方法論として扱われてきた。
本稿では,Gibs測度における勾配に基づく最適化により,MPPI,RL,拡散モデルを結ぶ統一的な視点を確立する。
まず,MPPIをスムーズなエネルギー関数上の勾配上昇として解釈できることを示す。
次に、ポリシーパラメータを固定初期状態下で制御変数として扱う場合、ポリシー勾配法がMPPIに還元されることを示す。
さらに,拡散モデルにおける逆サンプリングプロセスはMPPIと同じ更新規則に従うことを確認した。
関連論文リスト
- Predictive Lagrangian Optimization for Constrained Reinforcement Learning [15.082498910832529]
制約付き最適化は、複雑な制御タスクに対処するための強化学習で一般的に見られる。
本稿では,制約付き最適化とフィードバック制御システムとの接続を構築するための,より汎用的な等価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-25T13:39:45Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Model-based Reinforcement Learning for Parameterized Action Spaces [11.94388805327713]
PAMDPのためのモデルベース強化学習アルゴリズムを提案する。
エージェントはパラメータ化されたアクション条件付き力学モデルを学び、修正されたモデル予測経路積分制御で計画する。
いくつかの標準ベンチマークにおける実験結果から,本アルゴリズムは最先端のPAMDP法よりも優れたサンプリング効率と性能を実現することが示された。
論文 参考訳(メタデータ) (2024-04-03T19:48:13Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Learning Stochastic Optimal Policies via Gradient Descent [17.9807134122734]
学習に基づく最適制御処理(SOC)を体系的に開発する。
本稿では, 微分方程式に対する随伴感度の導出について, 変分計算の直接適用により提案する。
本稿では,比例トランザクションコストを伴う連続時間有限地平線ポートフォリオ最適化における提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-07T16:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。