論文の概要: MPCritic: A plug-and-play MPC architecture for reinforcement learning
- arxiv url: http://arxiv.org/abs/2504.01086v1
- Date: Tue, 01 Apr 2025 18:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:17:59.037332
- Title: MPCritic: A plug-and-play MPC architecture for reinforcement learning
- Title(参考訳): MPCritic:強化学習のためのプラグアンドプレイMPCアーキテクチャ
- Authors: Nathan P. Lawrence, Thomas Banker, Ali Mesbah,
- Abstract要約: 本稿では,MPCriticについて述べる。MPCriticは機械学習に優しいアーキテクチャで,MPCツールとシームレスに連携する。
MPCriticは、パラメータ化されたMPC問題によって定義された損失状況を利用して、バッチトレーニングステップに対する"ソフト"最適化に重点を置いている。
- 参考スコア(独自算出の注目度): 6.656737591902601
- License:
- Abstract: The reinforcement learning (RL) and model predictive control (MPC) communities have developed vast ecosystems of theoretical approaches and computational tools for solving optimal control problems. Given their conceptual similarities but differing strengths, there has been increasing interest in synergizing RL and MPC. However, existing approaches tend to be limited for various reasons, including computational cost of MPC in an RL algorithm and software hurdles towards seamless integration of MPC and RL tools. These challenges often result in the use of "simple" MPC schemes or RL algorithms, neglecting the state-of-the-art in both areas. This paper presents MPCritic, a machine learning-friendly architecture that interfaces seamlessly with MPC tools. MPCritic utilizes the loss landscape defined by a parameterized MPC problem, focusing on "soft" optimization over batched training steps; thereby updating the MPC parameters while avoiding costly minimization and parametric sensitivities. Since the MPC structure is preserved during training, an MPC agent can be readily used for online deployment, where robust constraint satisfaction is paramount. We demonstrate the versatility of MPCritic, in terms of MPC architectures and RL algorithms that it can accommodate, on classic control benchmarks.
- Abstract(参考訳): 強化学習(RL)とモデル予測制御(MPC)のコミュニティは、最適な制御問題を解決するための理論的アプローチと計算ツールの広大なエコシステムを構築している。
概念的類似性や強度の違いから、RLとMPCの相乗化への関心が高まっている。
しかし、既存のアプローチは、RLアルゴリズムにおけるMPCの計算コストや、MPCとRLツールのシームレスな統合に向けたソフトウェアハードルなど、様々な理由で制限される傾向にある。
これらの課題は、しばしば「単純な」MPCスキームまたはRLアルゴリズムを使用し、両方の領域における最先端を無視する。
本稿では,MPCriticについて述べる。MPCriticは機械学習に優しいアーキテクチャで,MPCツールとシームレスに連携する。
MPCriticは、パラメータ化されたMPC問題によって定義されるロスランドスケープを活用し、バッチ化されたトレーニングステップに対する"ソフト"最適化に焦点を当て、コストの最小化とパラメトリック感度を回避しながらMPCパラメータを更新する。
MPCの構造はトレーニング中に保持されるため、堅牢な制約満足度が最重要であるオンライン展開にMPCエージェントが容易に使用できる。
古典的制御ベンチマークにおいて,MPCriticのMPPCアーキテクチャとRLアルゴリズムの汎用性を示す。
関連論文リスト
- Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - On Building Myopic MPC Policies using Supervised Learning [0.0]
本稿では,教師付き学習を用いて最適値関数をオフラインで学習する代替戦略について考察する。
これは、非常に短い予測地平線を持つミオピックMPCのコスト・ツー・ゴー関数として使用できる。
論文 参考訳(メタデータ) (2024-01-23T08:08:09Z) - CoVO-MPC: Theoretical Analysis of Sampling-based MPC and Optimal
Covariance Design [8.943418808959494]
我々は,広く使用されているサンプリングベースモデル予測経路積分制御(MPPI)法の収束特性を特徴付ける。
時間変動LQRシステムをカバーする2次最適化では,MPPIは少なくとも線形収束率を満足することを示す。
我々の理論解析は、サンプリングに基づく新しいMPCアルゴリズム、CoVo-MPCに直結する。
実証的には、CoVo-MPCはシミュレーションと現実世界のクワッドアジャイルコントロールの両方で標準MPPIを43~54%上回っている。
論文 参考訳(メタデータ) (2024-01-14T21:10:59Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Deep Model Predictive Optimization [21.22047409735362]
ロボット工学における大きな課題は、現実世界で複雑でアジャイルな振る舞いを可能にする堅牢なポリシーを設計することである。
本稿では,MPC最適化アルゴリズムの内ループを体験を通して直接学習するDeep Model Predictive Optimization (DMPO)を提案する。
DMPOは、MFRLでトレーニングされたエンドツーエンドポリシーを19%削減することで、最高のMPCアルゴリズムを最大27%向上させることができる。
論文 参考訳(メタデータ) (2023-10-06T21:11:52Z) - Learning-based MPC from Big Data Using Reinforcement Learning [1.3124513975412255]
本稿では,Reinforcement Learning (RL) 手法を用いて,データから直接モデル予測制御(MPC)スキームを学習する手法を提案する。
我々は、RLのツールを用いて、オフラインでデータから直接パラメータ化されたMPCスキームを学習することで、この問題に対処することを提案する。
提案手法は, 収集したデータセットを解くことなく, MPC のスキームを導出し, 既存のビッグデータ手法の計算複雑性を解消する。
論文 参考訳(メタデータ) (2023-01-04T15:39:34Z) - Optimization of the Model Predictive Control Meta-Parameters Through
Reinforcement Learning [1.4069478981641936]
強化学習(RL)を用いて制御アルゴリズムの任意のパラメータを協調的に調整できる新しいフレームワークを提案する。
我々は,倒立振子制御タスクの枠組みを実証し,制御システムの総時間を36%削減するとともに,最高性能のMPCベースラインよりも18.4%向上した。
論文 参考訳(メタデータ) (2021-11-07T18:33:22Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。