論文の概要: Online Learning Based Risk-Averse Stochastic MPC of Constrained Linear
Uncertain Systems
- arxiv url: http://arxiv.org/abs/2011.11441v1
- Date: Fri, 20 Nov 2020 13:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:39:45.574643
- Title: Online Learning Based Risk-Averse Stochastic MPC of Constrained Linear
Uncertain Systems
- Title(参考訳): オンライン学習による制約付き線形不確かさシステムのリスク・アバース確率mpc
- Authors: Chao Ning, Fengqi You
- Abstract要約: 本稿では, 線形時間不変系のデータ駆動型モデル予測制御(MPC)の設計問題について検討する。
本研究では,条件付きバリュー・アット・リスク(CVaR)制約があいまいさ集合と呼ばれる分布の族を拘束するために必要となる,オンライン学習に基づくリスク変動型MPCフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the problem of designing data-driven stochastic Model
Predictive Control (MPC) for linear time-invariant systems under additive
stochastic disturbance, whose probability distribution is unknown but can be
partially inferred from data. We propose a novel online learning based
risk-averse stochastic MPC framework in which Conditional Value-at-Risk (CVaR)
constraints on system states are required to hold for a family of distributions
called an ambiguity set. The ambiguity set is constructed from disturbance data
by leveraging a Dirichlet process mixture model that is self-adaptive to the
underlying data structure and complexity. Specifically, the structural property
of multimodality is exploit-ed, so that the first- and second-order moment
information of each mixture component is incorporated into the ambiguity set. A
novel constraint tightening strategy is then developed based on an equivalent
reformulation of distributionally ro-bust CVaR constraints over the proposed
ambiguity set. As more data are gathered during the runtime of the controller,
the ambiguity set is updated online using real-time disturbance data, which
enables the risk-averse stochastic MPC to cope with time-varying disturbance
distributions. The online variational inference algorithm employed does not
require all collected data be learned from scratch, and therefore the proposed
MPC is endowed with the guaranteed computational complexity of online learning.
The guarantees on recursive feasibility and closed-loop stability of the
proposed MPC are established via a safe update scheme. Numerical examples are
used to illustrate the effectiveness and advantages of the proposed MPC.
- Abstract(参考訳): 本稿では, 確率分布が不明だがデータから部分的に推定できる線形時間不変系に対して, データ駆動確率モデル予測制御(MPC)を設計する際の問題点について検討する。
本稿では,システム状態に対する条件付きバリュー・アット・リスク(CVaR)制約があいまい性集合と呼ばれる分布の族を保持するために必要となる,オンライン学習に基づくリスク・アバース確率的MPCフレームワークを提案する。
曖昧性セットは、基盤となるデータ構造と複雑性に自己適応的なdirichletプロセス混合モデルを利用して、外乱データから構築される。
具体的には、各混合成分の1次および2次モーメント情報を曖昧性集合に組み込むように、マルチモダリティの構造的性質を悪用する。
提案したあいまい性集合に対する分布的ロバストCVaR制約の等価な再構成に基づいて,新しい制約緩和戦略を開発する。
コントローラの実行中により多くのデータが収集されると、リアルタイム外乱データを使用して曖昧性セットがオンラインに更新される。
オンライン変分推論アルゴリズムは、すべての収集データをスクラッチから学習する必要がないため、提案したMPCは、オンライン学習の計算複雑性を保証している。
提案したMPCの再帰可能性と閉ループ安定性の保証は,安全な更新方式によって確立される。
数値例は,提案するmpcの有効性と利点を説明するために用いられる。
関連論文リスト
- Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field
and Online Inference [50.91823345296243]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Online Probabilistic Model Identification using Adaptive Recursive MCMC [8.465242072268019]
適応再帰的マルコフ連鎖モンテカルロ法(ARMCMC)を提案する。
モデルパラメータの確率密度関数全体を計算しながら、従来のオンライン手法の欠点を解消する。
本研究では,ソフト曲げアクチュエータとハント・クロスリー動的モデルを用いてパラメータ推定を行った。
論文 参考訳(メタデータ) (2022-10-23T02:06:48Z) - The Role of Coverage in Online Reinforcement Learning [72.01066664756986]
優れたカバレッジを持つデータ分布が存在するだけで、サンプル効率のよいオンラインRLが実現可能であることを示す。
ベルマンランクやベルマン・エルダー次元を含むオンラインRLの既存の複雑さ測定は、カバービリティを最適に捉えることができない。
本稿では,新たな複雑性尺度である逐次外挿係数を提案する。
論文 参考訳(メタデータ) (2022-10-09T03:50:05Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - On Continual Model Refinement in Out-of-Distribution Data Streams [64.62569873799096]
現実世界の自然言語処理(NLP)モデルは、アウト・オブ・ディストリビューション(OOD)データストリームの予測エラーを修正するために、継続的に更新する必要がある。
既存の継続学習(CL)問題設定は、そのような現実的で複雑なシナリオをカバーできない。
連続モデル改良(CMR)と呼ばれる新しいCL問題定式化を提案する。
論文 参考訳(メタデータ) (2022-05-04T11:54:44Z) - Adaptive Stochastic MPC under Unknown Noise Distribution [19.03553854357296]
我々は、未知の雑音分布の下で、確率状態制約とハード入力制約を対象とする線形システムのMPC問題に対処する。
我々は、既知の雑音統計の理想的な設定のために、分布的に頑健で安定なベンチマークSMPCアルゴリズムを設計する。
我々はこのベンチマークコントローラを用いて、必要なノイズ統計をオンラインで学習する新しい適応SMPCスキームを導出する。
論文 参考訳(メタデータ) (2022-04-03T16:35:18Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Identification of Probability weighted ARX models with arbitrary domains [75.91002178647165]
PieceWise Affineモデルは、ハイブリッドシステムの他のクラスに対する普遍近似、局所線型性、同値性を保証する。
本研究では,任意の領域を持つ固有入力モデル(NPWARX)を用いたPieceWise Auto Regressiveの同定に着目する。
このアーキテクチャは、機械学習の分野で開発されたMixture of Expertの概念に従って考案された。
論文 参考訳(メタデータ) (2020-09-29T12:50:33Z) - Learning to Satisfy Unknown Constraints in Iterative MPC [3.306595429364865]
本稿では,未知の多面体状態制約を満たすために繰り返し学習する線形時間不変系の制御設計法を提案する。
繰り返しタスクの各イテレーションにおいて、収集された閉ループ軌跡データを用いて未知の環境制約を推定する。
MPCコントローラは、推定された制約セットを確実に満たすように設計されている。
論文 参考訳(メタデータ) (2020-06-09T05:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。