論文の概要: Data-driven Acceleration of MPC with Guarantees
- arxiv url: http://arxiv.org/abs/2511.13588v1
- Date: Mon, 17 Nov 2025 16:51:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.618139
- Title: Data-driven Acceleration of MPC with Guarantees
- Title(参考訳): 保証付きMPCのデータ駆動高速化
- Authors: Agustin Castellano, Shijie Pan, Enrique Mallada,
- Abstract要約: 我々は、オンライン最適化をオフラインMPCソリューションから構築された非パラメトリックポリシーに置き換えることで、MPCを高速化するデータ駆動フレームワークを提案する。
我々の政策は最適コスト・ツー・ゴーに構築された上限に対して厳格であり、非パラメトリックなルックアップルールとして実装することができる。
我々の実験では、このポリシーは標準のMPCの100倍から1000倍の速度で、最適性にはわずかしか影響せず、リアルタイム制御タスクの可能性を示している。
- 参考スコア(独自算出の注目度): 3.4716081340827016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model Predictive Control (MPC) is a powerful framework for optimal control but can be too slow for low-latency applications. We present a data-driven framework to accelerate MPC by replacing online optimization with a nonparametric policy constructed from offline MPC solutions. Our policy is greedy with respect to a constructed upper bound on the optimal cost-to-go, and can be implemented as a nonparametric lookup rule that is orders of magnitude faster than solving MPC online. Our analysis shows that under sufficient coverage condition of the offline data, the policy is recursively feasible and admits provable, bounded optimality gap. These conditions establish an explicit trade-off between the amount of data collected and the tightness of the bounds. Our experiments show that this policy is between 100 and 1000 times faster than standard MPC, with only a modest hit to optimality, showing potential for real-time control tasks.
- Abstract(参考訳): モデル予測制御(MPC)は最適制御のための強力なフレームワークであるが、低遅延アプリケーションでは遅すぎる可能性がある。
我々は、オンライン最適化をオフラインMPCソリューションから構築された非パラメトリックポリシーに置き換えることで、MPCを高速化するデータ駆動フレームワークを提案する。
我々の政策は最適コスト・ツー・ゴー上の構築された上限に対して厳格であり、MPCをオンラインで解くよりも桁違いに高速な非パラメトリックなルックアップルールとして実装することができる。
分析の結果、オフラインデータの十分なカバレッジ条件下では、ポリシーは再帰的に実行可能であり、証明可能で有界な最適性ギャップを認めていることがわかった。
これらの条件は、収集されたデータ量と境界の厳密性の間に明確なトレードオフを確立する。
我々の実験によると、このポリシーは標準のMPCの100倍から1000倍の速度で、最適性にはわずかしか影響せず、リアルタイム制御タスクの可能性を示している。
関連論文リスト
- Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO [0.0]
Model Predictive Control (MPC)ベースのReinforcement Learning (RL)は、Deep Neural Network (DNN)ベースのRL手法の、構造化された解釈可能な代替手段を提供する。
標準MPC-RLアプローチは、収束の遅さ、パラメータ化の制限による最適条件学習、オンライン適応時の安全性の問題に悩まされることが多い。
MPC-RLと多目的ベイズ最適化(MOBO)を統合した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-14T02:31:52Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Data Selection via Optimal Control for Language Models [134.67665351539725]
本研究は,大規模コーパスから高品質な事前学習データを選択することにより,下流利用におけるLMの能力を向上させることを目的とする。
PMP条件を解くことで最適なデータ選択を近似するフレームワークであるPMPベースのデータ選択(PDS)を導入する。
PDSの利点は、スケーリング法則に従ってテスト損失曲線の外挿によって証明されたように、10Tトークンでトレーニングされた400Bモデルにまで拡張される。
論文 参考訳(メタデータ) (2024-10-09T17:06:57Z) - Constraint-Generation Policy Optimization (CGPO): Nonlinear Programming for Policy Optimization in Mixed Discrete-Continuous MDPs [21.246169498568342]
CGPOは、表現力のある非線形力学を持つ多くのDC-MDPに対して、無限の範囲の初期状態に対する有界なポリシーエラーを保証する。
CGPOは、最悪の状態軌跡を生成して、政策上の欠陥を診断し、最適な行動の反実的な説明を提供する。
在庫管理,貯水池管理,物理制御など,各種分野におけるCGPOの適用性について実験的に検証した。
論文 参考訳(メタデータ) (2024-01-20T07:12:57Z) - Deep Model Predictive Optimization [21.22047409735362]
ロボット工学における大きな課題は、現実世界で複雑でアジャイルな振る舞いを可能にする堅牢なポリシーを設計することである。
本稿では,MPC最適化アルゴリズムの内ループを体験を通して直接学習するDeep Model Predictive Optimization (DMPO)を提案する。
DMPOは、MFRLでトレーニングされたエンドツーエンドポリシーを19%削減することで、最高のMPCアルゴリズムを最大27%向上させることができる。
論文 参考訳(メタデータ) (2023-10-06T21:11:52Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。