論文の概要: Regret Analysis of Learning-Based Linear Quadratic Gaussian Control with
Additive Exploration
- arxiv url: http://arxiv.org/abs/2311.02679v2
- Date: Fri, 24 Nov 2023 14:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-11-28 02:38:29.145807
- Title: Regret Analysis of Learning-Based Linear Quadratic Gaussian Control with
Additive Exploration
- Title(参考訳): 付加探索による学習ベース線形二次ガウス制御の回帰解析
- Authors: Archith Athrey, Othmane Mazhar, Meichen Guo, Bart De Schutter and
Shengling Shi
- Abstract要約: LQG-NAIVEと呼ばれる二相制御アルゴリズムを導入する。
また,LQG-NAIVE が $tildemathcalO(sqrtT)$, $mathcalO(sqrtT)$, $T$の時間ステップ後に対数的要因に到達したことを示す。
本稿では,Fisher Information Matrix (FIM) を組み込んで,探索信号をクローズドループ設定に拡張するLQG-IF2Eを提案する。
- 参考スコア(独自算出の注目度): 11.39047104731391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we analyze the regret incurred by a computationally efficient
exploration strategy, known as naive exploration, for controlling unknown
partially observable systems within the Linear Quadratic Gaussian (LQG)
framework. We introduce a two-phase control algorithm called LQG-NAIVE, which
involves an initial phase of injecting Gaussian input signals to obtain a
system model, followed by a second phase of an interplay between naive
exploration and control in an episodic fashion. We show that LQG-NAIVE achieves
a regret growth rate of $\tilde{\mathcal{O}}(\sqrt{T})$, i.e.,
$\mathcal{O}(\sqrt{T})$ up to logarithmic factors after $T$ time steps, and we
validate its performance through numerical simulations. Additionally, we
propose LQG-IF2E, which extends the exploration signal to a `closed-loop'
setting by incorporating the Fisher Information Matrix (FIM). We provide
compelling numerical evidence of the competitive performance of LQG-IF2E
compared to LQG-NAIVE.
- Abstract(参考訳): 本稿では,LQG(Linear Quadratic Gaussian)フレームワーク内の未知の部分観測可能なシステムを制御するために,計算効率のよい探索戦略であるNuive Exploringによって得られた後悔を解析する。
lqg-naiveと呼ばれる二相制御アルゴリズムを導入し、ガウス入力信号を注入してシステムモデルを得る初期フェーズと、エピソディックな方法でのナイーブ探索と制御の相互作用の第2フェーズを紹介する。
我々は,LQG-NAIVE が $\tilde{\mathcal{O}}(\sqrt{T})$,すなわち $\mathcal{O}(\sqrt{T})$,$T$ の時間ステップの後に対数因子まで到達し,その性能を数値シミュレーションにより検証することを示す。
また,FIM(Fisher Information Matrix)を組み込んだ「クローズドループ」設定に探索信号を拡張したLQG-IF2Eを提案する。
我々は,LQG-IF2EとLQG-NAIVEの競合性能を比較検討した。
関連論文リスト
- Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - LQGNet: Hybrid Model-Based and Data-Driven Linear Quadratic Stochastic
Control [24.413595920205907]
二次制御は、不確実性のある環境で、力学系のための最適な制御信号を見つけることを扱う。
LQGNetは、部分的に知られた動的操作のためにデータを活用するコントローラである。
LQGNetは、ミスマッチしたSSモデルを克服することで、古典的な制御よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-23T17:59:51Z) - Identification and Adaptive Control of Markov Jump Systems: Sample
Complexity and Regret Bounds [24.74448154832031]
本稿では,未知のマルコフジャンプ線形系 (MJS) を2次目的に最適化する問題を考える。
まず,MJSが各モードの力学を学習するためのシステム識別アルゴリズムを提案する。
そこで本研究では,システム識別と等価な制御を併用した適応制御方式を提案する。
論文 参考訳(メタデータ) (2021-11-13T02:38:13Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Scalable regret for learning to control network-coupled subsystems with
unknown dynamics [5.670584589057048]
相互接続されたサブシステムを見ることは、サブシステムの数とともに超直線的に増加する後悔をもたらす。
本稿では,基礎となるネットワークの構造を活かした新しいトンプソンサンプリングに基づく学習アルゴリズムを提案する。
提案アルゴリズムの期待された後悔は$tildemathcalO big(n sqrtT big)$, $n$はサブシステムの数, $T$は時間軸, $tildemathcalO(cdot)$表記は$nで対数項を隠していることを示す。
論文 参考訳(メタデータ) (2021-08-18T04:45:34Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z) - Randomized Exploration in Generalized Linear Bandits [56.05007606177762]
一般化線形帯域に対する2つのランダム化アルゴリズムについて検討する。
最初のGLM-TSLは、ラプラス近似から後方分布への一般化線形モデル(GLM)をサンプリングする。
第2のGLM-FPLは、過去の報酬のランダムな摂動履歴にGLMを適合させる。
論文 参考訳(メタデータ) (2019-06-21T04:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。