論文の概要: Improved Sample Complexity of Imitation Learning for Barrier Model Predictive Control
- arxiv url: http://arxiv.org/abs/2410.00859v1
- Date: Tue, 1 Oct 2024 16:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 03:46:09.187924
- Title: Improved Sample Complexity of Imitation Learning for Barrier Model Predictive Control
- Title(参考訳): バリアモデル予測制御のための模擬学習のサンプル複雑さの改善
- Authors: Daniel Pfrommer, Swati Padmanabhan, Kwangjun Ahn, Jack Umenberger, Tobia Marcucci, Zakaria Mhammedi, Ali Jadbabaie,
- Abstract要約: システムの汎用クラスに対して,スムーズな専門家コントローラを設計する方法を示す。
MPCの障壁は, 何らかの方向に沿って, 理論的に最適な誤差-平滑性トレードオフを達成できることを示す。
- 参考スコア(独自算出の注目度): 27.609098229134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in imitation learning has shown that having an expert controller that is both suitably smooth and stable enables stronger guarantees on the performance of the learned controller. However, constructing such smoothed expert controllers for arbitrary systems remains challenging, especially in the presence of input and state constraints. As our primary contribution, we show how such a smoothed expert can be designed for a general class of systems using a log-barrier-based relaxation of a standard Model Predictive Control (MPC) optimization problem. Improving upon our previous work, we show that barrier MPC achieves theoretically optimal error-to-smoothness tradeoff along some direction. At the core of this theoretical guarantee on smoothness is an improved lower bound we prove on the optimality gap of the analytic center associated with a convex Lipschitz function, which we believe could be of independent interest. We validate our theoretical findings via experiments, demonstrating the merits of our smoothing approach over randomized smoothing.
- Abstract(参考訳): 近年の模倣学習における研究は、専門家のコントローラーが適度にスムーズで安定していれば、学習したコントローラの性能がより確実に保証されることを示した。
しかし、そのようなスムーズなエキスパートコントローラを任意のシステム向けに構築することは、特に入力や状態制約の存在下では困難である。
主な貢献として、標準的なモデル予測制御(MPC)最適化問題のログバリアに基づく緩和を用いて、そのようなスムーズな専門家が、システムの一般的なクラスに対してどのように設計できるかを示す。
従来の研究を改良し,MPCは何らかの方向に沿って,理論的に最適な誤差-平滑性トレードオフを達成できることを示した。
滑らか性に関するこの理論的な保証の中核は改善された下界であり、凸リプシッツ函数に付随する解析中心の最適性ギャップについて証明する。
実験により, ランダムな平滑化に対するスムースなアプローチのメリットを実証し, 理論的知見を検証した。
関連論文リスト
- Stability-informed Bayesian Optimization for MPC Cost Function Learning [5.643541009427271]
本研究では,不完全な情報の下での予測制御パラメータの閉ループ学習について検討する。
フィードフォワードニューラルネットワークとしてパラメータ化されたモデル予測制御器(MPC)コスト関数の学習には,制約付きベイズ最適化を用いる。
Lyapunov 候補として基礎となる MPC の最適値関数を利用して,学習した制御パラメータの安定性制約によってこの枠組みを拡張した。
論文 参考訳(メタデータ) (2024-04-18T13:49:09Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - On the Sample Complexity of Imitation Learning for Smoothed Model Predictive Control [27.609098229134]
システムの一般的なクラスに対して,スムーズな専門家を設計する方法を示す。
凸リプシッツ関数に付随する解析中心の最適性ギャップを証明した。
論文 参考訳(メタデータ) (2023-06-02T20:43:38Z) - Constrained Reinforcement Learning using Distributional Representation for Trustworthy Quadrotor UAV Tracking Control [2.325021848829375]
本研究では, 未知の空力効果に対する分散強化学習障害推定器を統合した新しいトラジェクトリトラッカーを提案する。
提案手法は, 空気力学効果の真値と推定値の不確かさを正確に同定する。
本システムは,最近の技術と比較して,累積追尾誤差を少なくとも70%改善することを示した。
論文 参考訳(メタデータ) (2023-02-22T23:15:56Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。