論文の概要: Distributed Online Linear Quadratic Control for Linear Time-invariant
Systems
- arxiv url: http://arxiv.org/abs/2009.13749v1
- Date: Tue, 29 Sep 2020 03:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 07:22:33.646894
- Title: Distributed Online Linear Quadratic Control for Linear Time-invariant
Systems
- Title(参考訳): 線形時間不変系の分散オンライン線形二次制御
- Authors: Ting-Jui Chang, Shahin Shahrampour
- Abstract要約: 同一線形時間不変系(LTI)に対する分散オンライン線形二次問題(LQ)について検討する。
各エージェントがLTIシステムとしてモデル化されるマルチエージェントネットワークを考える。
オンラインLQアルゴリズムの分散変種を開発し、半定値プログラミング(SDP)にプロジェクションを投射して、分散オンライン勾配降下を実行し、コントローラを生成する。
- 参考スコア(独自算出の注目度): 14.924672048447334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical linear quadratic (LQ) control centers around linear time-invariant
(LTI) systems, where the control-state pairs introduce a quadratic cost with
time-invariant parameters. Recent advancement in online optimization and
control has provided novel tools to study LQ problems that are robust to
time-varying cost parameters. Inspired by this line of research, we study the
distributed online LQ problem for identical LTI systems. Consider a multi-agent
network where each agent is modeled as an LTI system. The LTI systems are
associated with decoupled, time-varying quadratic costs that are revealed
sequentially. The goal of the network is to make the control sequence of all
agents competitive to that of the best centralized policy in hindsight,
captured by the notion of regret. We develop a distributed variant of the
online LQ algorithm, which runs distributed online gradient descent with a
projection to a semi-definite programming (SDP) to generate controllers. We
establish a regret bound scaling as the square root of the finite time-horizon,
implying that agents reach consensus as time grows. We further provide
numerical experiments verifying our theoretical result.
- Abstract(参考訳): 古典線形二次(LQ)制御は線形時間不変(LTI)システムを中心に行われ、制御状態対は時間不変パラメータを持つ二次コストを導入する。
オンライン最適化と制御の最近の進歩は、時間的コストパラメータに頑健なLQ問題を研究するための新しいツールを提供している。
この一連の研究に触発され、同一のLTIシステムに対する分散オンラインLQ問題について検討する。
各エージェントがLTIシステムとしてモデル化されるマルチエージェントネットワークを考える。
LTIシステムは、連続的に明らかにされる、切り離された時間変化の二次コストと関連付けられている。
ネットワークの目的は、全てのエージェントの制御シーケンスを、後見の最高の中央集権政策と競合させることであり、後悔の概念によって捉えられる。
我々は,オンラインlqアルゴリズムの分散変種を開発し,準定型プログラミング (sdp) へのプロジェクションを用いてオンライン勾配降下を行い,コントローラを生成する。
我々は有限時間ホリゾンの平方根として後悔的な境界スケーリングを確立し、時間が増えるにつれてエージェントが合意に達することを示唆する。
さらに,理論結果の検証を行う数値実験を行う。
関連論文リスト
- Regret Analysis of Distributed Online Control for LTI Systems with
Adversarial Disturbances [12.201535821920624]
本稿では,線形時間不変系(LTI)のネットワーク上での分散オンライン制御問題に対処する。
既知のダイナミクスに対して,我々は,O(sqrtTlog T)$の残差を保証できる完全分散外乱フィードバックコントローラを提案する。
未知のダイナミクスの場合において、探索段階において、全てのエージェントがシステムダイナミクスを共同で学習する分散探索-テーマ-コミットアプローチを設計する。
論文 参考訳(メタデータ) (2023-10-04T23:24:39Z) - Regret Analysis of Online LQR Control via Trajectory Prediction and
Tracking: Extended Version [1.6344851071810074]
本稿では,オンライン線形二次規制(LQR)制御の新しい手法の提案と解析を行う。
提案手法では,最適軌道の予測に利用可能なコスト行列と,その方向を追従するトラッキングコントローラを用いる。
提案手法は,従来のオンラインLQR法と比較して性能が向上することを示す。
論文 参考訳(メタデータ) (2023-02-21T02:48:57Z) - Learning Mixtures of Linear Dynamical Systems [94.49754087817931]
そこで我々は,2段階のメタアルゴリズムを開発し,各基底構造LPSモデルを誤り$tildeO(sqrtd/T)$.sqrtd/T)まで効率的に復元する。
提案手法の有効性を検証し,数値実験による理論的研究を検証する。
論文 参考訳(メタデータ) (2022-01-26T22:26:01Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Regret Analysis of Distributed Online LQR Control for Unknown LTI
Systems [8.832969171530056]
線形時間不変(LTI)系に対する分散オンライン線形2次レギュレータ(LQR)問題について研究する。
本稿では,各エージェントが探索段階でシステム推定を計算するオンラインlqrアルゴリズムの分散型を提案する。
我々は,提案アルゴリズムが$tildeO(T2/3)$をスケールしていることを証明する。
論文 参考訳(メタデータ) (2021-05-15T23:02:58Z) - Stable Online Control of Linear Time-Varying Systems [49.41696101740271]
COCO-LQは、大規模なLTVシステムの入出力安定性を保証する効率的なオンライン制御アルゴリズムである。
COCO-LQの性能を実証実験とパワーシステム周波数制御の両例で実証した。
論文 参考訳(メタデータ) (2021-04-29T06:18:49Z) - Decomposability and Parallel Computation of Multi-Agent LQR [19.710361049812608]
連続時間線形MASにおける線形レギュレータ(LQR)設計のための並列RLスキームを提案する。
我々は、MAS が均質であれば、この分解は閉ループ最適性を保持することを示す。
提案手法は,LQRコストの累積価値を損なうことなく,学習の大幅な高速化を保証できる。
論文 参考訳(メタデータ) (2020-10-16T20:15:39Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。