論文の概要: Non-Episodic Learning for Online LQR of Unknown Linear Gaussian System
- arxiv url: http://arxiv.org/abs/2103.13278v1
- Date: Wed, 24 Mar 2021 15:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 15:19:10.409715
- Title: Non-Episodic Learning for Online LQR of Unknown Linear Gaussian System
- Title(参考訳): 未知線形ガウスシステムのオンラインLQRの非エポゾディック学習
- Authors: Yiwen Lu and Yilin Mo
- Abstract要約: 本稿では,単一軌道からシステムに関する知識を得るアルゴリズムを提案する。
識別と制御のほぼ確実に収束する割合を特徴付け、探索と搾取の間の最適なトレードオフを明らかにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers the data-driven linear-quadratic regulation (LQR)
problem where the system parameters are unknown and need to be identified
online. In particular, the system operator is not allowed to perform multiple
experiments by resetting the system to an initial state, a common approach in
system identification and data-driven control literature. Instead, we propose
an algorithm that gains knowledge about the system from a single trajectory,
and guarantee that both the identification error and the suboptimality of
control performance in this trajectory converge \emph{simultaneously} with
probability one. Furthermore, we characterize the almost sure convergence rates
of identification and control, and reveal an optimal trade-off between
exploration and exploitation. A numerical example is provided to illustrate the
effectiveness of our proposed strategy.
- Abstract(参考訳): 本稿では,システムパラメータが未知であり,オンラインで識別する必要があるデータ駆動線形量子制御(lqr)問題について考察する。
特に、システムオペレータは、システム識別とデータ駆動制御文学における一般的なアプローチである初期状態にリセットすることで、複数の実験を行うことができない。
その代わりに,1つの軌道からシステムに関する知識を得て,この軌道における識別誤差と制御性能の準最適性の両方を確率1で収束させるアルゴリズムを提案する。
さらに,識別と制御のほぼ確実に収束する割合を特徴とし,探索と搾取の最適なトレードオフを明らかにする。
提案手法の有効性を示す数値的な例を示す。
関連論文リスト
- A least-square method for non-asymptotic identification in linear switching control [17.938732931331064]
基礎となる部分観測線形力学系は、既知の候補モデルの有限集合内にあることが知られている。
線形最小二乗法の非漸近解析における最近の進歩を活用して、この問題の有限時間サンプル複雑性を特徴づける。
基礎となるシステムの未知のパラメータを識別するデータ駆動型スイッチング戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T20:55:38Z) - Computationally Efficient Data-Driven Discovery and Linear
Representation of Nonlinear Systems For Control [0.0]
この研究は、制御のための非線形システムのシステム同定と線形化のためのクープマン作用素理論を用いたデータ駆動型フレームワークの開発に焦点をあてる。
提案手法は, オートエンコーダのベースラインよりも効率よく, 精度が高いことを示す。
論文 参考訳(メタデータ) (2023-09-08T02:19:14Z) - Data-Driven Adversarial Online Control for Unknown Linear Systems [17.595231077524467]
このオンライン制御問題に対処する新しいデータ駆動型オンライン適応制御アルゴリズムを提案する。
我々のアルゴリズムは、高い確率で有界な$tmO(T2/3)の後悔勾配を保証し、この問題の最もよく知られた後悔勾配と一致する。
論文 参考訳(メタデータ) (2023-08-16T04:05:22Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - Efficient Reinforcement Learning Through Trajectory Generation [5.766441610380447]
実世界のアプリケーションで強化学習を使用する上で重要な障壁は、優れた制御ポリシーを学ぶために多数のシステムインタラクションが必要であることである。
歴史的データから制御ポリシを学習することにより,物理環境との相互作用を減らすために,オフ・ポリティクスとオフラインRL法が提案されている。
本稿では,新たなトラジェクトリを適応的に生成するトラジェクトリ生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-30T18:49:43Z) - A Robust and Explainable Data-Driven Anomaly Detection Approach For
Power Electronics [56.86150790999639]
本稿では,2つの異常検出・分類手法,すなわち行列プロファイルアルゴリズムと異常変換器を提案する。
行列プロファイルアルゴリズムは、ストリーミング時系列データにおけるリアルタイム異常を検出するための一般化可能なアプローチとして適している。
検知器の感度、リコール、検出精度を調整するために、一連のカスタムフィルタが作成され、追加される。
論文 参考訳(メタデータ) (2022-09-23T06:09:35Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Networked Online Learning for Control of Safety-Critical
Resource-Constrained Systems based on Gaussian Processes [9.544146562919792]
本稿では,ガウス過程の回帰に基づく新しいネットワーク型オンライン学習手法を提案する。
本稿では,送信チャネルの帯域制限と時間遅延を考慮した,ローカルシステムとクラウド間の効率的なデータ伝送方式を提案する。
論文 参考訳(メタデータ) (2022-02-23T13:12:12Z) - Active Learning for Nonlinear System Identification with Guarantees [102.43355665393067]
状態遷移が既知の状態-作用対の特徴埋め込みに線形に依存する非線形力学系のクラスについて検討する。
そこで本稿では, トラジェクティブ・プランニング, トラジェクティブ・トラッキング, システムの再推定という3つのステップを繰り返すことで, この問題を解決するためのアクティブ・ラーニング・アプローチを提案する。
本手法は, 非線形力学系を標準線形回帰の統計速度と同様, パラメトリック速度で推定する。
論文 参考訳(メタデータ) (2020-06-18T04:54:11Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。