論文の概要: Regret Lower Bounds for Learning Linear Quadratic Gaussian Systems
- arxiv url: http://arxiv.org/abs/2201.01680v4
- Date: Wed, 12 Jun 2024 13:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 02:02:19.063866
- Title: Regret Lower Bounds for Learning Linear Quadratic Gaussian Systems
- Title(参考訳): 線形二次ガウス系学習のためのレグレト下界
- Authors: Ingvar Ziemann, Henrik Sandberg,
- Abstract要約: 時間の地平線で等級$sqrtT$のスケーリングを示す、残念な低い境界を導出します。
私たちの境界は制御理論パラメータの役割を正確に捉えており、制御が難しいシステムも制御が難しいことを示すことができます。
- 参考スコア(独自算出の注目度): 6.261682379939611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: TWe establish regret lower bounds for adaptively controlling an unknown linear Gaussian system with quadratic costs. We combine ideas from experiment design, estimation theory and a perturbation bound of certain information matrices to derive regret lower bounds exhibiting scaling on the order of magnitude $\sqrt{T}$ in the time horizon $T$. Our bounds accurately capture the role of control-theoretic parameters and we are able to show that systems that are hard to control are also hard to learn to control; when instantiated to state feedback systems we recover the dimensional dependency of earlier work but with improved scaling with system-theoretic constants such as system costs and Gramians. Furthermore, we extend our results to a class of partially observed systems and demonstrate that systems with poor observability structure also are hard to learn to control.
- Abstract(参考訳): 2次コストで未知の線型ガウス系を適応的に制御するための後悔の低い境界を確立する。
実験設計、推定理論、ある情報行列の摂動境界のアイデアを組み合わせて、時間的地平線における等級$\sqrt{T}$のスケールを示す後悔の低い下界を導出する。
状態フィードバックシステムにインスタンス化されると、以前の作業の次元的依存性を回復するが、システムコストやグラミアンのようなシステム理論定数によるスケーリングが改善される。
さらに,実験結果を部分的に観測されたシステムに拡張し,可観測性に乏しいシステムでも制御が難しいことを示す。
関連論文リスト
- Learning Decentralized Linear Quadratic Regulators with $\sqrt{T}$ Regret [1.529943343419486]
本稿では,システムのモデルが未知な場合,分散線形二次制御系を適応的に設計するオンライン学習アルゴリズムを提案する。
我々のコントローラは、部分的にネストされた情報パターンの場合、時間軸の$T$で$sqrtT$までスケールする期待された後悔を楽しんでいます。
論文 参考訳(メタデータ) (2022-10-17T09:29:01Z) - Learning-Based Adaptive Control for Stochastic Linear Systems with Input
Constraints [3.8004168340068336]
そこで本研究では,加法的対象であるスカラー線形系の適応制御のための確実な等価性スキームを提案する。
系が極端に安定であると仮定すると、閉ループ系状態の平均二乗有界性は証明される。
論文 参考訳(メタデータ) (2022-09-15T04:49:06Z) - Learning to Control Linear Systems can be Hard [19.034920102339573]
線形システムを制御するための学習の統計的困難さについて検討する。
我々は、学習の複雑さが制御可能性指数と最も指数関数的であることを証明した。
論文 参考訳(メタデータ) (2022-05-27T15:07:30Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Regret Minimization in Partially Observable Linear Quadratic Control [91.43582419264763]
モデル力学が未知の先行性を持つ場合、部分的に観測可能な線形二次制御系における後悔の問題を考察する。
本稿では, 部分的に観測可能な線形二次制御のために, 後悔を分解し, 終端から終端までの後悔の上限を与える新しい方法を提案する。
論文 参考訳(メタデータ) (2020-01-31T22:35:08Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。