論文の概要: Regret Bounds for Learning Decentralized Linear Quadratic Regulator with
Partially Nested Information Structure
- arxiv url: http://arxiv.org/abs/2210.08886v1
- Date: Mon, 17 Oct 2022 09:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 22:07:50.073401
- Title: Regret Bounds for Learning Decentralized Linear Quadratic Regulator with
Partially Nested Information Structure
- Title(参考訳): 部分ネスト情報構造を持つ分散線形二次レギュレータ学習のためのレギュレット境界
- Authors: Lintao Ye, Ming Chi, Vijay Gupta
- Abstract要約: 本研究では,部分ネスト情報制約下での分散線形二次制御器の学習問題について検討する。
本稿では,制御ポリシーを適応的に設計するオンライン学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.8692254863855962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning decentralized linear quadratic regulator
under a partially nested information constraint, when the system model is
unknown a priori. We propose an online learning algorithm that adaptively
designs a control policy as new data samples from a single system trajectory
become available. Our algorithm design uses a disturbance-feedback
representation of state-feedback controllers coupled with online convex
optimization with memory and delayed feedback. We show that our online
algorithm yields a controller that satisfies the desired information constraint
and enjoys an expected regret that scales as $\sqrt{T}$ with the time horizon
$T$.
- Abstract(参考訳): システムモデルが未知の事前条件である場合,部分ネスト情報制約の下で分散線形二次制御系を学習する問題について検討する。
本研究では,単一のシステム軌道からの新しいデータサンプルが利用可能になるにつれて,制御ポリシーを適応的に設計するオンライン学習アルゴリズムを提案する。
アルゴリズム設計では、状態フィードバックコントローラの外乱フィードバック表現と、オンライン凸最適化とメモリと遅延フィードバックを組み合わせた。
我々のオンラインアルゴリズムは、所望の情報制約を満たすコントローラを生成し、期待された後悔を享受し、時間軸の$T$で$\sqrt{T}$にスケールすることを示す。
関連論文リスト
- Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Regret Lower Bounds for Learning Linear Quadratic Gaussian Systems [6.261682379939611]
時間の地平線で等級$sqrtT$のスケーリングを示す、残念な低い境界を導出します。
私たちの境界は制御理論パラメータの役割を正確に捉えており、制御が難しいシステムも制御が難しいことを示すことができます。
論文 参考訳(メタデータ) (2022-01-05T16:19:16Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Meta-Learning Guarantees for Online Receding Horizon Learning Control [0.0]
本稿では,オンラインメタ学習遅延水平方向制御アルゴリズムを反復制御設定で証明可能な後悔の保証を提供する。
イテレーション内で学ぶことの最悪の後悔は、より多くのイテレーションの経験によって改善されることを示します。
論文 参考訳(メタデータ) (2020-10-21T21:57:04Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。