Fugu-MT 論文翻訳(概要): Unifying Model Predictive Path Integral Control, Reinforcement Learning, and Diffusion Models for Optimal Control and Planning

論文の概要: Unifying Model Predictive Path Integral Control, Reinforcement Learning, and Diffusion Models for Optimal Control and Planning

arxiv url: http://arxiv.org/abs/2502.20476v1
Date: Thu, 27 Feb 2025 19:26:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.428177
Title: Unifying Model Predictive Path Integral Control, Reinforcement Learning, and Diffusion Models for Optimal Control and Planning
Title（参考訳）: 最適制御と計画のための予測経路積分制御・強化学習・拡散モデルの統合
Authors: Yankai Li, Mo Chen,
Abstract要約: 我々は,Gibs測度の勾配に基づく最適化により,MPPI,RL,拡散モデルを結ぶ統一的な視点を確立する。まず,MPPIをスムーズなエネルギー関数上の勾配上昇として解釈できることを示す。次に、ポリシーパラメータを固定初期状態下で制御変数として扱う場合、ポリシー勾配法がMPPIに還元されることを示す。
参考スコア（独自算出の注目度）: 6.871390204787483
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model Predictive Path Integral (MPPI) control, Reinforcement Learning (RL), and Diffusion Models have each demonstrated strong performance in trajectory optimization, decision-making, and motion planning. However, these approaches have traditionally been treated as distinct methodologies with separate optimization frameworks. In this work, we establish a unified perspective that connects MPPI, RL, and Diffusion Models through gradient-based optimization on the Gibbs measure. We first show that MPPI can be interpreted as performing gradient ascent on a smoothed energy function. We then demonstrate that Policy Gradient methods reduce to MPPI when treating policy parameters as control variables under a fixed initial state. Additionally, we establish that the reverse sampling process in diffusion models follows the same update rule as MPPI.
Abstract（参考訳）: モデル予測経路積分(MPPI)制御、強化学習(RL)、拡散モデルはそれぞれ、軌道最適化、意思決定、運動計画において強い性能を示した。しかし、これらのアプローチは伝統的に異なる最適化フレームワークを持つ別の方法論として扱われてきた。本稿では,Gibs測度における勾配に基づく最適化により,MPPI,RL,拡散モデルを結ぶ統一的な視点を確立する。まず,MPPIをスムーズなエネルギー関数上の勾配上昇として解釈できることを示す。次に、ポリシーパラメータを固定初期状態下で制御変数として扱う場合、ポリシー勾配法がMPPIに還元されることを示す。さらに,拡散モデルにおける逆サンプリングプロセスはMPPIと同じ更新規則に従うことを確認した。

関連論文リスト

Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。 DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-02-01T16:08:43Z)
Predictive Lagrangian Optimization for Constrained Reinforcement Learning [15.082498910832529]
制約付き最適化は、複雑な制御タスクに対処するための強化学習で一般的に見られる。本稿では,制約付き最適化とフィードバック制御システムとの接続を構築するための,より汎用的な等価フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-25T13:39:45Z)
Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文参考訳（メタデータ） (2024-10-02T08:46:34Z)
Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。 PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文参考訳（メタデータ） (2024-07-18T17:35:32Z)
Model-based Reinforcement Learning for Parameterized Action Spaces [11.94388805327713]
PAMDPのためのモデルベース強化学習アルゴリズムを提案する。エージェントはパラメータ化されたアクション条件付き力学モデルを学び、修正されたモデル予測経路積分制御で計画する。いくつかの標準ベンチマークにおける実験結果から,本アルゴリズムは最先端のPAMDP法よりも優れたサンプリング効率と性能を実現することが示された。
論文参考訳（メタデータ） (2024-04-03T19:48:13Z)
DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文参考訳（メタデータ） (2024-03-05T09:12:49Z)
Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。 EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文参考訳（メタデータ） (2023-12-10T15:22:30Z)
Model-Based Reparameterization Policy Gradient Methods: Theory and Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文参考訳（メタデータ） (2023-10-30T18:43:21Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。