論文の概要: Learning Decentralized Linear Quadratic Regulators with $\sqrt{T}$ Regret
- arxiv url: http://arxiv.org/abs/2210.08886v4
- Date: Thu, 4 Jul 2024 06:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 03:22:23.602431
- Title: Learning Decentralized Linear Quadratic Regulators with $\sqrt{T}$ Regret
- Title(参考訳): $\sqrt{T}$ Regret を用いた分散線形二次レギュレータの学習
- Authors: Lintao Ye, Ming Chi, Ruiquan Liao, Vijay Gupta,
- Abstract要約: 本稿では,システムのモデルが未知な場合,分散線形二次制御系を適応的に設計するオンライン学習アルゴリズムを提案する。
我々のコントローラは、部分的にネストされた情報パターンの場合、時間軸の$T$で$sqrtT$までスケールする期待された後悔を楽しんでいます。
- 参考スコア(独自算出の注目度): 1.529943343419486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an online learning algorithm that adaptively designs a decentralized linear quadratic regulator when the system model is unknown a priori and new data samples from a single system trajectory become progressively available. The algorithm uses a disturbance-feedback representation of state-feedback controllers coupled with online convex optimization with memory and delayed feedback. Under the assumption that the system is stable or given a known stabilizing controller, we show that our controller enjoys an expected regret that scales as $\sqrt{T}$ with the time horizon $T$ for the case of partially nested information pattern. For more general information patterns, the optimal controller is unknown even if the system model is known. In this case, the regret of our controller is shown with respect to a linear sub-optimal controller. We validate our theoretical findings using numerical experiments.
- Abstract(参考訳): 本稿では,システムモデルが未知な場合の分散線形二次規制を適応的に設計するオンライン学習アルゴリズムを提案する。
このアルゴリズムは、状態フィードバックコントローラの障害フィードバック表現と、オンライン凸最適化とメモリと遅延フィードバックを組み合わせた。
システムが安定であるか、あるいは既知の安定化コントローラが与えられたという仮定の下で、我々のコントローラは、部分的にネストされた情報パターンの場合、時間水平線$T$で$\sqrt{T}$までスケールする期待された後悔を楽しんでいることを示す。
より一般的な情報パターンについては、システムモデルが知られている場合でも最適制御器は未知である。
この場合、線形準最適制御器に関して、制御器の後悔が示される。
数値実験により理論的知見を検証した。
関連論文リスト
- Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Regret Lower Bounds for Learning Linear Quadratic Gaussian Systems [6.261682379939611]
時間の地平線で等級$sqrtT$のスケーリングを示す、残念な低い境界を導出します。
私たちの境界は制御理論パラメータの役割を正確に捉えており、制御が難しいシステムも制御が難しいことを示すことができます。
論文 参考訳(メタデータ) (2022-01-05T16:19:16Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Meta-Learning Guarantees for Online Receding Horizon Learning Control [0.0]
本稿では,オンラインメタ学習遅延水平方向制御アルゴリズムを反復制御設定で証明可能な後悔の保証を提供する。
イテレーション内で学ぶことの最悪の後悔は、より多くのイテレーションの経験によって改善されることを示します。
論文 参考訳(メタデータ) (2020-10-21T21:57:04Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。