論文の概要: Learning in Networked Control Systems
- arxiv url: http://arxiv.org/abs/2003.09596v1
- Date: Sat, 21 Mar 2020 07:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 12:59:06.754576
- Title: Learning in Networked Control Systems
- Title(参考訳): ネットワーク制御システムにおける学習
- Authors: Rahul Singh and P. R. Kumar
- Abstract要約: ネットワーク制御システム(UCB-NCS)における上位信頼境界を提案する。
UCB-NCSの「レグレット」を解析し、非漸近的な性能保証を提供する。
高い確率で、後悔は$tildeOleft(CsqrtTright)$footnoteHere $tildeO$が対数因子を隠していることを示す。
- 参考スコア(独自算出の注目度): 13.377633338663554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We design adaptive controller (learning rule) for a networked control system
(NCS) in which data packets containing control information are transmitted
across a lossy wireless channel. We propose Upper Confidence Bounds for
Networked Control Systems (UCB-NCS), a learning rule that maintains confidence
intervals for the estimates of plant parameters $(A_{(\star)},B_{(\star)})$,
and channel reliability $p_{(\star)}$, and utilizes the principle of optimism
in the face of uncertainty while making control decisions. We provide
non-asymptotic performance guarantees for UCB-NCS by analyzing its "regret",
i.e., performance gap from the scenario when
$(A_{(\star)},B_{(\star)},p_{(\star)})$ are known to the controller. We show
that with a high probability the regret can be upper-bounded as
$\tilde{O}\left(C\sqrt{T}\right)$\footnote{Here $\tilde{O}$ hides logarithmic
factors.}, where $T$ is the operating time horizon of the system, and $C$ is a
problem dependent constant.
- Abstract(参考訳): 我々は、制御情報を含むデータパケットが損失のある無線チャネルを介して送信されるネットワーク制御システム(NCS)の適応制御(学習規則)を設計する。
本稿では,プラントパラメータ推定値$(a_{(\star)},b_{(\star)})$,チャネル信頼性$p_{(\star)}$に対する信頼区間を維持する学習規則であるネットワーク制御系(ucb-ncs)の上位信頼境界を提案し,制御決定をしながら不確実性に直面した楽観主義の原理を利用する。
制御器に$(A_{(\star)},B_{(\star)},p_{(\star)})$が知られている場合のシナリオとの性能差を解析することにより、UCB-NCSの非漸近的な性能保証を提供する。
高い確率で、後悔は、$\tilde{O}\left(C\sqrt{T}\right)$\footnote{Here $\tilde{O}$ hides logarithmic factors. と表すことができる。
ここで$T$はシステムの運用時間の地平線であり、$C$は問題依存定数である。
関連論文リスト
- Control of the von Neumann Entropy for an Open Two-Qubit System Using Coherent and Incoherent Drives [50.24983453990065]
本稿では、時間依存デコヒーレンス率を誘導するコヒーレント制御と非コヒーレント制御を備えた開2量子系のフォン・ノイマンエントロピー$S(rho(t))$を操作するためのアプローチを開発することに専念する。
a) the final entropy $S(rho(T))$; (b) steering $S(rho(T))$ to a given target value; (c) steering $S(rho(T))$ to a target value and satisfying the pointwise state constraint $S(T)
論文 参考訳(メタデータ) (2024-05-10T10:01:10Z) - Almost Surely $\sqrt{T}$ Regret Bound for Adaptive LQR [2.72434489773245]
ほぼ確実に$tilde MathcalO(sqrtT)$ regret upper boundを持つ適応型LQRコントローラを提案する。
コントローラは、潜在的な安全違反を回避し、パラメータ推定の収束を保証する回路破壊機構を備えている。
論文 参考訳(メタデータ) (2023-01-13T13:35:43Z) - Minimal Expected Regret in Linear Quadratic Control [79.81807680370677]
オンライン学習アルゴリズムを考案し、その期待された後悔を保証します。
当時のこの後悔は、$A$と$B$が未知の場合、$widetildeO((d_u+d_x)sqrtd_xT)$によって上界(i)となる。
論文 参考訳(メタデータ) (2021-09-29T14:07:21Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Scalable regret for learning to control network-coupled subsystems with
unknown dynamics [5.670584589057048]
相互接続されたサブシステムを見ることは、サブシステムの数とともに超直線的に増加する後悔をもたらす。
本稿では,基礎となるネットワークの構造を活かした新しいトンプソンサンプリングに基づく学習アルゴリズムを提案する。
提案アルゴリズムの期待された後悔は$tildemathcalO big(n sqrtT big)$, $n$はサブシステムの数, $T$は時間軸, $tildemathcalO(cdot)$表記は$nで対数項を隠していることを示す。
論文 参考訳(メタデータ) (2021-08-18T04:45:34Z) - Nearly Horizon-Free Offline Reinforcement Learning [97.36751930393245]
S$状態、$A$アクション、計画的地平$H$で、エピソードな時間同質なMarkov決定プロセスに関するオフライン強化学習を再考する。
経験的MDPを用いた評価と計画のための,約$H$自由なサンプル複雑性境界の最初の集合を得る。
論文 参考訳(メタデータ) (2021-03-25T18:52:17Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。