論文の概要: Regret Lower Bounds for Learning Linear Quadratic Gaussian Systems
- arxiv url: http://arxiv.org/abs/2201.01680v1
- Date: Wed, 5 Jan 2022 16:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-01-06 15:42:25.292976
- Title: Regret Lower Bounds for Learning Linear Quadratic Gaussian Systems
- Title(参考訳): 線形二次ガウス系学習における後悔下限
- Authors: Ingvar Ziemann, Henrik Sandberg
- Abstract要約: 局所ミニマックスは、線形四元系-ガウス系(LQG)を適応的に制御するために低い境界を後悔する。
我々は,スムーズなパラメトリズドインスタンスを考察し,対数的後悔がいつ不可能かを理解する。
- 参考スコア(独自算出の注目度): 8.469413522654428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents local minimax regret lower bounds for adaptively
controlling linear-quadratic-Gaussian (LQG) systems. We consider smoothly
parametrized instances and provide an understanding of when logarithmic regret
is impossible which is both instance specific and flexible enough to take
problem structure into account. This understanding relies on two key notions:
That of local-uninformativeness; when the optimal policy does not provide
sufficient excitation for identification of the optimal policy, and yields a
degenerate Fisher information matrix; and that of
information-regret-boundedness, when the small eigenvalues of a
policy-dependent information matrix are boundable in terms of the regret of
that policy. Combined with a reduction to Bayesian estimation and application
of Van Trees' inequality, these two conditions are sufficient for proving
regret bounds on order of magnitude $\sqrt{T}$ in the time horizon, $T$. This
method yields lower bounds that exhibit tight dimensional dependencies and
scale naturally with control-theoretic problem constants. For instance, we are
able to prove that systems operating near marginal stability are fundamentally
hard to learn to control. We further show that large classes of systems satisfy
these conditions, among them any state-feedback system with both $A$- and
$B$-matrices unknown. Most importantly, we also establish that a nontrivial
class of partially observable systems, essentially those that are
over-actuated, satisfy these conditions, thus providing a $\sqrt{T}$ lower
bound also valid for partially observable systems. Finally, we turn to two
simple examples which demonstrate that our lower bound captures classical
control-theoretic intuition: our lower bounds diverge for systems operating
near marginal stability or with large filter gain -- these can be arbitrarily
hard to (learn to) control.
- Abstract(参考訳): 本稿では,LQG系を適応的に制御するための局所的ミニマックス後悔低境界について述べる。
我々は、スムーズなパラメトリズドインスタンスを検討し、問題構造を考慮するのに十分なインスタンス固有かつ柔軟な対数的後悔がいつ不可能かを理解する。
この理解は2つの重要な概念に依存している: 局所的不定形性; 最適ポリシーが最適ポリシーの識別に十分な励起を提供しておらず、縮退したフィッシャー情報行列を与えるとき; および、ポリシーに依存した情報行列の小さな固有値が、そのポリシーの後悔の点において有界であるときの情報-相対有界性(information-regret-boundedness)である。
ベイズ推定への還元とヴァン・ツリーの不等式の適用と合わせて、これら2つの条件は時間地平線において等級$\sqrt{T}$の後悔境界を証明するのに十分である。
この方法は、厳密な次元依存を示す下界を導き、制御理論問題定数で自然にスケールする。
例えば、限界安定性に近いシステムの動作は、基本的に制御の習得が難しいことを証明できます。
さらに、これらの条件を満たすシステムの大規模なクラス、中でも$A$-および$B$-matricesが不明な状態フィードバックシステムを示す。
最も重要なことは、本質的に過飽和な部分可観測系の非自明なクラスがこれらの条件を満たすこと、従って、$\sqrt{T}$下界が部分可観測系にも有効であることを示すことである。
最後に、我々の下界が古典的な制御理論の直観を捉えていることを示す2つの単純な例に目を向ける。
関連論文リスト
- Learning Decentralized Linear Quadratic Regulators with $\sqrt{T}$ Regret [1.529943343419486]
本稿では,システムのモデルが未知な場合,分散線形二次制御系を適応的に設計するオンライン学習アルゴリズムを提案する。
我々のコントローラは、部分的にネストされた情報パターンの場合、時間軸の$T$で$sqrtT$までスケールする期待された後悔を楽しんでいます。
論文 参考訳(メタデータ) (2022-10-17T09:29:01Z) - Learning-Based Adaptive Control for Stochastic Linear Systems with Input
Constraints [3.8004168340068336]
そこで本研究では,加法的対象であるスカラー線形系の適応制御のための確実な等価性スキームを提案する。
系が極端に安定であると仮定すると、閉ループ系状態の平均二乗有界性は証明される。
論文 参考訳(メタデータ) (2022-09-15T04:49:06Z) - Learning to Control Linear Systems can be Hard [19.034920102339573]
線形システムを制御するための学習の統計的困難さについて検討する。
我々は、学習の複雑さが制御可能性指数と最も指数関数的であることを証明した。
論文 参考訳(メタデータ) (2022-05-27T15:07:30Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Regret Minimization in Partially Observable Linear Quadratic Control [91.43582419264763]
モデル力学が未知の先行性を持つ場合、部分的に観測可能な線形二次制御系における後悔の問題を考察する。
本稿では, 部分的に観測可能な線形二次制御のために, 後悔を分解し, 終端から終端までの後悔の上限を与える新しい方法を提案する。
論文 参考訳(メタデータ) (2020-01-31T22:35:08Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。