論文の概要: Regret Analysis of Distributed Online LQR Control for Unknown LTI
Systems
- arxiv url: http://arxiv.org/abs/2105.07310v1
- Date: Sat, 15 May 2021 23:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:20:42.503369
- Title: Regret Analysis of Distributed Online LQR Control for Unknown LTI
Systems
- Title(参考訳): 未知ltiシステムに対する分散オンラインlqr制御の後悔解析
- Authors: Ting-Jui Chang and Shahin Shahrampour
- Abstract要約: 線形時間不変(LTI)系に対する分散オンライン線形2次レギュレータ(LQR)問題について研究する。
本稿では,各エージェントが探索段階でシステム推定を計算するオンラインlqrアルゴリズムの分散型を提案する。
我々は,提案アルゴリズムが$tildeO(T2/3)$をスケールしていることを証明する。
- 参考スコア(独自算出の注目度): 8.832969171530056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online learning has recently opened avenues for rethinking classical optimal
control beyond time-invariant cost metrics, and online controllers are designed
when the performance criteria changes adversarially over time. Inspired by this
line of research, we study the distributed online linear quadratic regulator
(LQR) problem for linear time-invariant (LTI) systems with unknown dynamics.
Consider a multi-agent network where each agent is modeled as a LTI system. The
LTI systems are associated with time-varying quadratic costs that are revealed
sequentially. The goal of the network is to collectively (i) estimate the
unknown dynamics and (ii) compute local control sequences competitive to that
of the best centralized policy in hindsight that minimizes the sum of costs for
all agents. This problem is formulated as a {\it regret} minimization. We
propose a distributed variant of the online LQR algorithm where each agent
computes its system estimate during an exploration stage. The agent then
applies distributed online gradient descent on a semi-definite programming
(SDP) whose feasible set is based on the agent's system estimate. We prove that
the regret bound of our proposed algorithm scales $\tilde{O}(T^{2/3})$,
implying the consensus of the network over time. We also provide simulation
results verifying our theoretical guarantee.
- Abstract(参考訳): オンライン学習は、最近、時間不変コストのメトリクスを超えて古典的な最適制御を再考するための道を開いた。
この一連の研究に触発されて,未知ダイナミクスを持つ線形時間不変量 (lti) システムに対する分散オンライン線形二次レギュレータ (lqr) 問題の研究を行った。
各エージェントがLTIシステムとしてモデル化されるマルチエージェントネットワークを考える。
lti系は、逐次的に現れる時変二次コストと関連している。
ネットワークの目的は、集合的に(i)未知のダイナミクスを推定し、(ii)すべてのエージェントのコストの合計を最小限に抑えながら、最適な中央集権政策と競合する局所制御シーケンスを計算することである。
この問題は「後悔」最小化として定式化されている。
本稿では,各エージェントが探索段階でシステム推定を計算するオンラインlqrアルゴリズムの分散型を提案する。
エージェントは、エージェントのシステム推定に基づいて実現可能なセットを持つ半定義プログラミング(sdp)に分散オンライン勾配降下を適用する。
提案アルゴリズムの残差は$\tilde{O}(T^{2/3})$であり、時間とともにネットワークのコンセンサスが大きくなることを示す。
理論的な保証を検証するシミュレーション結果も提供します。
関連論文リスト
- Regret Analysis of Distributed Online Control for LTI Systems with
Adversarial Disturbances [12.201535821920624]
本稿では,線形時間不変系(LTI)のネットワーク上での分散オンライン制御問題に対処する。
既知のダイナミクスに対して,我々は,O(sqrtTlog T)$の残差を保証できる完全分散外乱フィードバックコントローラを提案する。
未知のダイナミクスの場合において、探索段階において、全てのエージェントがシステムダイナミクスを共同で学習する分散探索-テーマ-コミットアプローチを設計する。
論文 参考訳(メタデータ) (2023-10-04T23:24:39Z) - Online Nonsubmodular Minimization with Delayed Costs: From Full
Information to Bandit Feedback [98.7678704343537]
我々は,オンラインおよび近似的オンライン帯域勾配勾配アルゴリズムのいくつかの変種に対する後悔の保証を,特別な構造を持つ非部分モジュラ関数のクラスに焦点をあてる。
我々は,決定の選択と帰属費用の受け取りの遅れが無拘束である場合でも,エージェントの完全な情報と盗賊のフィードバック設定に対する後悔の限界を導出する。
論文 参考訳(メタデータ) (2022-05-15T08:27:12Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Decentralized Multi-Agent Linear Bandits with Safety Constraints [31.67685495996986]
本研究では,N$エージェントのネットワークが協調して線形帯域最適化問題を解く分散線形帯域幅について検討する。
ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズム DLUCB を提案する。
私たちのアイデアは、より困難な、安全な盗賊の設定にもかかわらず、自然界に広まっています。
論文 参考訳(メタデータ) (2020-12-01T07:33:00Z) - Distributed Online Linear Quadratic Control for Linear Time-invariant
Systems [14.924672048447334]
同一線形時間不変系(LTI)に対する分散オンライン線形二次問題(LQ)について検討する。
各エージェントがLTIシステムとしてモデル化されるマルチエージェントネットワークを考える。
オンラインLQアルゴリズムの分散変種を開発し、半定値プログラミング(SDP)にプロジェクションを投射して、分散オンライン勾配降下を実行し、コントローラを生成する。
論文 参考訳(メタデータ) (2020-09-29T03:30:49Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Regret Bounds for Decentralized Learning in Cooperative Multi-Agent
Dynamical Systems [3.9599054392856488]
マルチエージェント強化学習(MARL)における二次解析の課題
補助単エージェントLQ問題の構成に基づくMARLアルゴリズムを提案する。
我々のアルゴリズムは $tildeO(sqrtT)$ regret bound を提供する。
論文 参考訳(メタデータ) (2020-01-27T23:37:41Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。