論文の概要: On the Sample Complexity of Imitation Learning for Smoothed Model Predictive Control
- arxiv url: http://arxiv.org/abs/2306.01914v2
- Date: Tue, 3 Sep 2024 17:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 05:11:54.865071
- Title: On the Sample Complexity of Imitation Learning for Smoothed Model Predictive Control
- Title(参考訳): 滑らかなモデル予測制御のための模擬学習のサンプル複雑さについて
- Authors: Daniel Pfrommer, Swati Padmanabhan, Kwangjun Ahn, Jack Umenberger, Tobia Marcucci, Zakaria Mhammedi, Ali Jadbabaie,
- Abstract要約: システムの一般的なクラスに対して,スムーズな専門家を設計する方法を示す。
凸リプシッツ関数に付随する解析中心の最適性ギャップを証明した。
- 参考スコア(独自算出の注目度): 27.609098229134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in imitation learning has shown that having an expert controller that is both suitably smooth and stable enables stronger guarantees on the performance of the learned controller. However, constructing such smoothed expert controllers for arbitrary systems remains challenging, especially in the presence of input and state constraints. As our primary contribution, we show how such a smoothed expert can be designed for a general class of systems using a log-barrier-based relaxation of a standard Model Predictive Control (MPC) optimization problem. At the crux of this theoretical guarantee on smoothness is a new lower bound we prove on the optimality gap of the analytic center associated with a convex Lipschitz function, which we hope could be of independent interest. We validate our theoretical findings via experiments, demonstrating the merits of our smoothing approach over randomized smoothing.
- Abstract(参考訳): 近年の模倣学習における研究は、専門家のコントローラーが適度にスムーズで安定していれば、学習したコントローラの性能がより確実に保証されることを示した。
しかし、そのようなスムーズなエキスパートコントローラを任意のシステム向けに構築することは、特に入力や状態制約の存在下では困難である。
主な貢献として、標準的なモデル予測制御(MPC)最適化問題のログバリアに基づく緩和を用いて、そのようなスムーズな専門家が、システムの一般的なクラスに対してどのように設計できるかを示す。
滑らか性に関するこの理論的な保証は新たな下界であり、凸リプシッツ函数に付随する解析中心の最適性ギャップについて証明する。
実験により, ランダムな平滑化に対するスムースなアプローチのメリットを実証し, 理論的知見を検証した。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - MPC-Inspired Reinforcement Learning for Verifiable Model-Free Control [5.9867297878688195]
モデル予測制御(MPC)からインスピレーションを得た新しいパラメータ化コントローラを導入する。
コントローラは線形MPC問題の擬似プログラミング(QP)解法に似ており、コントローラのパラメータはDeep Reinforcement Learning(DRL)を介して訓練される。
提案したコントローラは, MPCに比べて計算効率が優れ, コントローラよりも学習するパラメータが少ない。
論文 参考訳(メタデータ) (2023-12-08T19:33:22Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Adaptive Stochastic MPC under Unknown Noise Distribution [19.03553854357296]
我々は、未知の雑音分布の下で、確率状態制約とハード入力制約を対象とする線形システムのMPC問題に対処する。
我々は、既知の雑音統計の理想的な設定のために、分布的に頑健で安定なベンチマークSMPCアルゴリズムを設計する。
我々はこのベンチマークコントローラを用いて、必要なノイズ統計をオンラインで学習する新しい適応SMPCスキームを導出する。
論文 参考訳(メタデータ) (2022-04-03T16:35:18Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Heteroscedastic Bayesian Optimisation for Stochastic Model Predictive
Control [23.180330602334223]
モデル予測制御(MPC)は、複雑な物理システムの制御を含むアプリケーションで成功している。
制御器の動作のランダム性に起因した余分な課題を提示する,MPC のコンテキストにおける微調整 MPC 手法について検討する。
論文 参考訳(メタデータ) (2020-10-01T05:31:41Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - ABC-LMPC: Safe Sample-Based Learning MPC for Stochastic Nonlinear
Dynamical Systems with Adjustable Boundary Conditions [34.44010424789202]
本稿では,新しいLMPCアルゴリズムであるadjustable boundary LMPC(ABC-LMPC)を提案する。
提案手法は,3つの連続制御タスクの初期および終端条件に適応できることを実験的に実証する。
論文 参考訳(メタデータ) (2020-03-03T09:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。