論文の概要: Scalable regret for learning to control network-coupled subsystems with
unknown dynamics
- arxiv url: http://arxiv.org/abs/2108.07970v1
- Date: Wed, 18 Aug 2021 04:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 14:27:38.517647
- Title: Scalable regret for learning to control network-coupled subsystems with
unknown dynamics
- Title(参考訳): 未知のダイナミクスでネットワーク結合サブシステムを制御することを学ぶためのスケーラブルな後悔
- Authors: Sagar Sudhakara and Aditya Mahajan and Ashutosh Nayyar and Yi Ouyang
- Abstract要約: 相互接続されたサブシステムを見ることは、サブシステムの数とともに超直線的に増加する後悔をもたらす。
本稿では,基礎となるネットワークの構造を活かした新しいトンプソンサンプリングに基づく学習アルゴリズムを提案する。
提案アルゴリズムの期待された後悔は$tildemathcalO big(n sqrtT big)$, $n$はサブシステムの数, $T$は時間軸, $tildemathcalO(cdot)$表記は$nで対数項を隠していることを示す。
- 参考スコア(独自算出の注目度): 5.670584589057048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of controlling an unknown linear quadratic Gaussian
(LQG) system consisting of multiple subsystems connected over a network. Our
goal is to minimize and quantify the regret (i.e. loss in performance) of our
strategy with respect to an oracle who knows the system model. Viewing the
interconnected subsystems globally and directly using existing LQG learning
algorithms for the global system results in a regret that increases
super-linearly with the number of subsystems. Instead, we propose a new
Thompson sampling based learning algorithm which exploits the structure of the
underlying network. We show that the expected regret of the proposed algorithm
is bounded by $\tilde{\mathcal{O}} \big( n \sqrt{T} \big)$ where $n$ is the
number of subsystems, $T$ is the time horizon and the
$\tilde{\mathcal{O}}(\cdot)$ notation hides logarithmic terms in $n$ and $T$.
Thus, the regret scales linearly with the number of subsystems. We present
numerical experiments to illustrate the salient features of the proposed
algorithm.
- Abstract(参考訳): ネットワーク上に接続された複数のサブシステムからなる未知の線形二次ガウスシステム(LQG)を制御する問題を考える。
私たちのゴールは後悔の最小化と定量化です。
システムモデルを知っているオラクルに対する当社の戦略の損失)。
相互接続されたサブシステムを見て、グローバルシステムのために既存のlqg学習アルゴリズムを直接使用すると、サブシステム数とスーパーリニアに増大する後悔が生じる。
そこで本研究では,基礎となるネットワーク構造を利用した新しいトンプソンサンプリング学習アルゴリズムを提案する。
提案アルゴリズムの期待された後悔は、$\tilde{\mathcal{O}} \big(n \sqrt{T} \big)$、$n$はサブシステムの数、$T$は時間軸、$\tilde{\mathcal{O}}(\cdot)$表記は$n$と$T$の対数項を隠していることを示す。
したがって、後悔はサブシステムの数と線形にスケールする。
本稿では,提案アルゴリズムの健全性を示す数値実験について述べる。
関連論文リスト
- Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Dynamic Regret Minimization for Control of Non-stationary Linear
Dynamical Systems [18.783925692307054]
本稿では,$tildemathcalO(sqrtST)$を最適にリセットするアルゴリズムを提案する。
本アルゴリズムの要点は適応的非定常性検出戦略であり,最近開発されたコンテキスト多重武装バンドイット問題に対するアプローチに基づいている。
論文 参考訳(メタデータ) (2021-11-06T01:30:51Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - A relaxed technical assumption for posterior sampling-based
reinforcement learning for control of unknown linear systems [5.715788333977634]
我々は,最近Ouyangらによって提案された未知の線形二次系(LQ)を制御するために,トンプソンサンプリングアルゴリズムを再検討する。
アルゴリズムを微修正することにより、誘導ノルムに関するこの技術的仮定は、閉ループ系のスペクトル半径の観点からより穏やかな仮定に置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-08-19T05:25:28Z) - Thompson sampling for linear quadratic mean-field teams [3.957353452014781]
エージェント間で動的およびコストが結合される未知のマルチエージェント線形二次系(LQ)の最適制御について検討する。
我々は,システムモデルの構造を活かした新しいトンプソンサンプリング学習アルゴリズムを提案し,時間軸に異なる種類のエージェントを持つシステムに対してベイズが提案したアルゴリズムを,エージェントの総数に関係なく$T$ is $tildemathcalO big( |M|1.5 sqrtT big)$で後悔していることを示す。
論文 参考訳(メタデータ) (2020-11-09T19:07:32Z) - Episodic Linear Quadratic Regulators with Low-rank Transitions [31.8243883890202]
本稿では,本システムの低ランク構造を効率よく学習するアルゴリズムを提案する。
我々のアルゴリズムは$K$-episode regret bound of order $widetildeO(m3/2 K1/2)$を達成する。
論文 参考訳(メタデータ) (2020-11-03T08:48:31Z) - Algorithms and SQ Lower Bounds for PAC Learning One-Hidden-Layer ReLU
Networks [48.32532049640782]
ガウス境界の下で, 1層ReLUネットワークを$k$の隠れ単位で学習する問題をmathbbRd$で研究する。
正の係数の場合、この学習問題の初回アルゴリズムを$k$から$tildeOOmega(sqrtlog d)$まで与える。
論文 参考訳(メタデータ) (2020-06-22T17:53:54Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。