論文の概要: CoVO-MPC: Theoretical Analysis of Sampling-based MPC and Optimal
Covariance Design
- arxiv url: http://arxiv.org/abs/2401.07369v1
- Date: Sun, 14 Jan 2024 21:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 18:31:11.039138
- Title: CoVO-MPC: Theoretical Analysis of Sampling-based MPC and Optimal
Covariance Design
- Title(参考訳): CoVO-MPC:サンプリングベースMPCの理論解析と最適共分散設計
- Authors: Zeji Yi, Chaoyi Pan, Guanqi He, Guannan Qu, Guanya Shi
- Abstract要約: 我々は,広く使用されているサンプリングベースモデル予測経路積分制御(MPPI)法の収束特性を特徴付ける。
時間変動LQRシステムをカバーする2次最適化では,MPPIは少なくとも線形収束率を満足することを示す。
我々の理論解析は、サンプリングに基づく新しいMPCアルゴリズム、CoVo-MPCに直結する。
実証的には、CoVo-MPCはシミュレーションと現実世界のクワッドアジャイルコントロールの両方で標準MPPIを43~54%上回っている。
- 参考スコア(独自算出の注目度): 8.943418808959494
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sampling-based Model Predictive Control (MPC) has been a practical and
effective approach in many domains, notably model-based reinforcement learning,
thanks to its flexibility and parallelizability. Despite its appealing
empirical performance, the theoretical understanding, particularly in terms of
convergence analysis and hyperparameter tuning, remains absent. In this paper,
we characterize the convergence property of a widely used sampling-based MPC
method, Model Predictive Path Integral Control (MPPI). We show that MPPI enjoys
at least linear convergence rates when the optimization is quadratic, which
covers time-varying LQR systems. We then extend to more general nonlinear
systems. Our theoretical analysis directly leads to a novel sampling-based MPC
algorithm, CoVariance-Optimal MPC (CoVo-MPC) that optimally schedules the
sampling covariance to optimize the convergence rate. Empirically, CoVo-MPC
significantly outperforms standard MPPI by 43-54% in both simulations and
real-world quadrotor agile control tasks. Videos and Appendices are available
at \url{https://lecar-lab.github.io/CoVO-MPC/}.
- Abstract(参考訳): サンプリングベースのモデル予測制御(MPC)は、その柔軟性と並列化性により、モデルベースの強化学習など、多くの領域において実用的で効果的なアプローチである。
その魅力的な経験的性能にもかかわらず、特に収束解析とハイパーパラメータチューニングの観点からの理論的理解はいまだ欠落している。
本稿では,広く使用されているサンプリングベースMPC法であるモデル予測パス積分制御(MPPI)の収束特性を特徴付ける。
時間変動LQRシステムをカバーする2次最適化では,MPPIは少なくとも線形収束率を満足することを示す。
さらに、より一般的な非線形システムにも拡張します。
我々の理論解析は, サンプリングに基づく新しいMPCアルゴリズム, CoVo-MPC (CoVariance-Optimal MPC) に直接導出し, サンプリング共分散を最適にスケジュールし, 収束率を最適化する。
実証的には、CoVo-MPCは標準的なMPPIよりも43~54%優れています。
ビデオと付録は \url{https://lecar-lab.github.io/covo-mpc/} で入手できる。
関連論文リスト
- Transformer-based Model Predictive Control: Trajectory Optimization via Sequence Modeling [16.112708478263745]
本稿では,最適化に基づく学習手法の主な強みを組み合わせた統合フレームワークを提案する。
我々のアプローチでは、最適化プロセス内に高容量、トランスフォーマーベースのニューラルネットワークモデルを組み込む必要がある。
純粋に最適化に基づくアプローチと比較すると,提案手法では最大75%の性能向上が期待できる。
論文 参考訳(メタデータ) (2024-10-31T13:23:10Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Deep Model Predictive Optimization [21.22047409735362]
ロボット工学における大きな課題は、現実世界で複雑でアジャイルな振る舞いを可能にする堅牢なポリシーを設計することである。
本稿では,MPC最適化アルゴリズムの内ループを体験を通して直接学習するDeep Model Predictive Optimization (DMPO)を提案する。
DMPOは、MFRLでトレーニングされたエンドツーエンドポリシーを19%削減することで、最高のMPCアルゴリズムを最大27%向上させることができる。
論文 参考訳(メタデータ) (2023-10-06T21:11:52Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - Variational Inference MPC using Normalizing Flows and
Out-of-Distribution Projection [7.195824023358536]
衝突のないナビゲーションのためのモデル予測制御(MPC)手法を提案する。
ロボットの力学と複雑な障害物測地の両方を考慮に入れた分布を学習する。
プロジェクション付きFlowMPPIは,分布内およびOOD環境において,最先端のMPCベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-10T04:43:15Z) - ABC-LMPC: Safe Sample-Based Learning MPC for Stochastic Nonlinear
Dynamical Systems with Adjustable Boundary Conditions [34.44010424789202]
本稿では,新しいLMPCアルゴリズムであるadjustable boundary LMPC(ABC-LMPC)を提案する。
提案手法は,3つの連続制御タスクの初期および終端条件に適応できることを実験的に実証する。
論文 参考訳(メタデータ) (2020-03-03T09:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。