論文の概要: Learning Stochastic Parametric Differentiable Predictive Control
Policies
- arxiv url: http://arxiv.org/abs/2203.01447v1
- Date: Wed, 2 Mar 2022 22:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 17:09:01.164962
- Title: Learning Stochastic Parametric Differentiable Predictive Control
Policies
- Title(参考訳): 学習確率的パラメトリック微分可能予測制御ポリシー
- Authors: J\'an Drgo\v{n}a, Sayak Mukherjee, Aaron Tuor, Mahantesh Halappanavar,
Draguna Vrabie
- Abstract要約: 本稿では、ニューラルネットワークポリシーの教師なし学習のための、パラメトリック微分可能予測制御(SP-DPC)と呼ばれるスケーラブルな代替手法を提案する。
SP-DPCはパラメトリック制約最適制御問題に対する決定論的近似として定式化される。
閉ループ制約と確率満足度に関するSP-DPC法を用いて学習したポリシーに関する理論的確率的保証を提供する。
- 参考スコア(独自算出の注目度): 2.042924346801313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of synthesizing stochastic explicit model predictive control
policies is known to be quickly intractable even for systems of modest
complexity when using classical control-theoretic methods. To address this
challenge, we present a scalable alternative called stochastic parametric
differentiable predictive control (SP-DPC) for unsupervised learning of neural
control policies governing stochastic linear systems subject to nonlinear
chance constraints. SP-DPC is formulated as a deterministic approximation to
the stochastic parametric constrained optimal control problem. This formulation
allows us to directly compute the policy gradients via automatic
differentiation of the problem's value function, evaluated over sampled
parameters and uncertainties. In particular, the computed expectation of the
SP-DPC problem's value function is backpropagated through the closed-loop
system rollouts parametrized by a known nominal system dynamics model and
neural control policy which allows for direct model-based policy optimization.
We provide theoretical probabilistic guarantees for policies learned via the
SP-DPC method on closed-loop stability and chance constraints satisfaction.
Furthermore, we demonstrate the computational efficiency and scalability of the
proposed policy optimization algorithm in three numerical examples, including
systems with a large number of states or subject to nonlinear constraints.
- Abstract(参考訳): 確率的明示的モデル予測制御ポリシーを合成する問題は、古典的な制御理論の手法を用いる際には、控えめな複雑性のシステムであっても、素早く難解であることが知られている。
この課題に対処するために、確率的微分可能予測制御(SP-DPC)と呼ばれるスケーラブルな代替手法を提案し、非線形確率制約を受ける確率線形システムを管理する神経制御ポリシーの教師なし学習を行う。
SP-DPCは確率的パラメトリック制約最適制御問題に対する決定論的近似として定式化される。
この定式化により、問題の値関数の自動微分を通じてポリシー勾配を直接計算し、サンプルパラメータや不確実性から評価することができる。
特に、SP-DPC問題の値関数の計算された期待値は、既知の名目システム力学モデルと直接モデルベースのポリシー最適化を可能にするニューラルコントロールポリシーによってパラメータ化されたクローズドループシステムロールアウトによって逆伝搬される。
本研究では,SP-DPC法による閉ループ安定性と確率制約満足度に関する理論確率論的保証を提供する。
さらに,提案アルゴリズムの計算効率とスケーラビリティを,多数の状態を持つシステムや非線形制約を受けるシステムを含む3つの数値例で示す。
関連論文リスト
- Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Neural ODEs as Feedback Policies for Nonlinear Optimal Control [1.8514606155611764]
ニューラルネットワークをパラメータ化した微分方程式として連続時間力学をモデル化するために、ニューラル常微分方程式(ニューラルODE)を用いる。
本稿では,一般非線形最適制御問題の解法としてニューラル・オードとして提案するニューラル・コントロール・ポリシーを提案する。
論文 参考訳(メタデータ) (2022-10-20T13:19:26Z) - Neural Lyapunov Differentiable Predictive Control [2.042924346801313]
本稿では、確率的リアプノフに基づく安定性保証を備えた微分可能なプログラミングフレームワークを用いた学習に基づく予測制御手法を提案する。
この手法は、安定な力学で状態空間の領域を認証するリアプノフ関数を共同で学習する。
論文 参考訳(メタデータ) (2022-05-22T03:52:27Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Combining Gaussian processes and polynomial chaos expansions for
stochastic nonlinear model predictive control [0.0]
最適制御問題の時間不変不確かさを明示的に考慮する新しいアルゴリズムを提案する。
本稿では, 非線形変換の平均および分散推定値を得るために, この組み合わせを効率的に利用することを提案する。
最適制御問題に対する確率的目標と確率的制約の両方を定式化する方法を示す。
論文 参考訳(メタデータ) (2021-03-09T14:25:08Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。