論文の概要: Regret Analysis of Distributed Online Control for LTI Systems with
Adversarial Disturbances
- arxiv url: http://arxiv.org/abs/2310.03206v1
- Date: Wed, 4 Oct 2023 23:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 20:00:29.817637
- Title: Regret Analysis of Distributed Online Control for LTI Systems with
Adversarial Disturbances
- Title(参考訳): 逆乱を伴うLTIシステムの分散オンライン制御のレグレト解析
- Authors: Ting-Jui Chang and Shahin Shahrampour
- Abstract要約: 本稿では,線形時間不変系(LTI)のネットワーク上での分散オンライン制御問題に対処する。
既知のダイナミクスに対して,我々は,O(sqrtTlog T)$の残差を保証できる完全分散外乱フィードバックコントローラを提案する。
未知のダイナミクスの場合において、探索段階において、全てのエージェントがシステムダイナミクスを共同で学習する分散探索-テーマ-コミットアプローチを設計する。
- 参考スコア(独自算出の注目度): 12.201535821920624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the distributed online control problem over a network of
linear time-invariant (LTI) systems (with possibly unknown dynamics) in the
presence of adversarial perturbations. There exists a global network cost that
is characterized by a time-varying convex function, which evolves in an
adversarial manner and is sequentially and partially observed by local agents.
The goal of each agent is to generate a control sequence that can compete with
the best centralized control policy in hindsight, which has access to the
global cost. This problem is formulated as a regret minimization. For the case
of known dynamics, we propose a fully distributed disturbance feedback
controller that guarantees a regret bound of $O(\sqrt{T}\log T)$, where $T$ is
the time horizon. For the unknown dynamics case, we design a distributed
explore-then-commit approach, where in the exploration phase all agents jointly
learn the system dynamics, and in the learning phase our proposed control
algorithm is applied using each agent system estimate. We establish a regret
bound of $O(T^{2/3} \text{poly}(\log T))$ for this setting.
- Abstract(参考訳): 本稿では,線形時間不変系(LTI)のネットワーク上の分散オンライン制御問題に,対角摂動が存在する場合の対処を行う。
時間変化の凸関数を特徴とするグローバルネットワークコストがあり、これは対角的に進化し、局所エージェントによって順次、部分的に観察される。
各エージェントの目標は、グローバルコストにアクセス可能な、最も中央集権的なコントロールポリシと競合するコントロールシーケンスを生成することだ。
この問題は後悔の最小化として定式化されている。
既知のダイナミクスの場合、完全に分散した外乱フィードバックコントローラを提案し、ここでは$t$ が時間軸である$o(\sqrt{t}\log t)$ の後悔値が保証される。
未知のダイナミクスの場合、探索段階において、全てのエージェントが共同でシステムダイナミクスを学習し、学習段階において、提案する制御アルゴリズムを各エージェントシステム推定値を用いて適用する分散探索・コミットアプローチを設計する。
我々は、この設定に対して$O(T^{2/3} \text{poly}(\log T))$の後悔境界を確立する。
関連論文リスト
- Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement
Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Regret Analysis of Distributed Online LQR Control for Unknown LTI
Systems [8.832969171530056]
線形時間不変(LTI)系に対する分散オンライン線形2次レギュレータ(LQR)問題について研究する。
本稿では,各エージェントが探索段階でシステム推定を計算するオンラインlqrアルゴリズムの分散型を提案する。
我々は,提案アルゴリズムが$tildeO(T2/3)$をスケールしていることを証明する。
論文 参考訳(メタデータ) (2021-05-15T23:02:58Z) - Decentralized Control with Graph Neural Networks [147.84766857793247]
分散コントローラを学習するグラフニューラルネットワーク(GNN)を用いた新しいフレームワークを提案する。
GNNは、自然分散アーキテクチャであり、優れたスケーラビリティと転送性を示すため、タスクに適している。
分散コントローラの学習におけるGNNの可能性を説明するために、群れとマルチエージェントパス計画の問題を検討する。
論文 参考訳(メタデータ) (2020-12-29T18:59:14Z) - Decentralized Multi-Agent Linear Bandits with Safety Constraints [31.67685495996986]
本研究では,N$エージェントのネットワークが協調して線形帯域最適化問題を解く分散線形帯域幅について検討する。
ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズム DLUCB を提案する。
私たちのアイデアは、より困難な、安全な盗賊の設定にもかかわらず、自然界に広まっています。
論文 参考訳(メタデータ) (2020-12-01T07:33:00Z) - Distributed Online Linear Quadratic Control for Linear Time-invariant
Systems [14.924672048447334]
同一線形時間不変系(LTI)に対する分散オンライン線形二次問題(LQ)について検討する。
各エージェントがLTIシステムとしてモデル化されるマルチエージェントネットワークを考える。
オンラインLQアルゴリズムの分散変種を開発し、半定値プログラミング(SDP)にプロジェクションを投射して、分散オンライン勾配降下を実行し、コントローラを生成する。
論文 参考訳(メタデータ) (2020-09-29T03:30:49Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。