論文の概要: Learning the Kalman Filter with Fine-Grained Sample Complexity
- arxiv url: http://arxiv.org/abs/2301.12624v1
- Date: Mon, 30 Jan 2023 02:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 15:53:39.233138
- Title: Learning the Kalman Filter with Fine-Grained Sample Complexity
- Title(参考訳): 細粒度サンプル複雑性をもつカルマンフィルタの学習
- Authors: Xiangyuan Zhang, Bin Hu, Tamer Ba\c{s}ar
- Abstract要約: 離散時間無限水平カルマンフィルタにおけるモデルフリーポリシー勾配法(PG法)の最初のエンドツーエンドのサンプル複雑性を開発する。
本研究の結果は, 統計的ノイズ等により状態測定が破損しうる線形力学系を制御するために, モデルフリーPG法の適用に光を当てた。
- 参考スコア(独自算出の注目度): 4.301206378997673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop the first end-to-end sample complexity of model-free policy
gradient (PG) methods in discrete-time infinite-horizon Kalman filtering.
Specifically, we introduce the receding-horizon policy gradient (RHPG-KF)
framework and demonstrate $\tilde{\mathcal{O}}(\epsilon^{-2})$ sample
complexity for RHPG-KF in learning a stabilizing filter that is
$\epsilon$-close to the optimal Kalman filter. Notably, the proposed RHPG-KF
framework does not require the system to be open-loop stable nor assume any
prior knowledge of a stabilizing filter. Our results shed light on applying
model-free PG methods to control a linear dynamical system where the state
measurements could be corrupted by statistical noises and other (possibly
adversarial) disturbances.
- Abstract(参考訳): 離散時間無限ホライゾンカルマンフィルタにおけるモデルフリーポリシー勾配(pg)法の最初のエンドツーエンドサンプル複雑性を開発した。
具体的には、RHPG-KFフレームワークを導入し、最適なカルマンフィルタに$\epsilon$-closeの安定化フィルタを学習する際に、RHPG-KFのサンプル複雑性を$\tilde{\mathcal{O}}(\epsilon^{-2})$で示す。
特に,提案した RHPG-KF フレームワークは, 安定化フィルタの事前知識を前提とせず, オープンループ安定である必要はない。
この結果から, 統計的ノイズや(おそらくは敵対的)障害によって状態測定が破損する線形力学系を制御するために, モデルフリーPG法を適用した。
関連論文リスト
- Closed-form Filtering for Non-linear Systems [83.91296397912218]
我々は密度近似と計算効率の面でいくつかの利点を提供するガウスPSDモデルに基づく新しいフィルタのクラスを提案する。
本研究では,遷移や観測がガウスPSDモデルである場合,フィルタリングを効率的にクローズド形式で行うことができることを示す。
提案する推定器は, 近似の精度に依存し, 遷移確率の正則性に適応する推定誤差を伴って, 高い理論的保証を享受する。
論文 参考訳(メタデータ) (2024-02-15T08:51:49Z) - Global Convergence of Receding-Horizon Policy Search in Learning
Estimator Designs [3.0811185425377743]
本稿では,Receding-Horizon Policy estimator (RHPG)アルゴリズムを提案する。
RHPGは、最適線形ポリシー推定器の学習において証明可能な大域収束を持つ最初のアルゴリズムである。
論文 参考訳(メタデータ) (2023-09-09T16:03:49Z) - Revisiting LQR Control from the Perspective of Receding-Horizon Policy
Gradient [2.1756081703276]
回帰水平政策勾配(RHPG)の観点から、離散時間線形二次規制(LQR)問題を再考する。
最適LQR解に対して安定化かつ$epsilon-closeの制御ポリシを学習するために,G の詳細なサンプル解析を行う。
論文 参考訳(メタデータ) (2023-02-25T19:16:40Z) - Globally Convergent Policy Search over Dynamic Filters for Output
Estimation [64.90951294952094]
我々は,大域的に最適な$textitdynamic$ filterに収束する最初の直接ポリシー探索アルゴリズム凸を導入する。
我々は、情報化が前述の優越性を克服していることを示す。
論文 参考訳(メタデータ) (2022-02-23T18:06:20Z) - Inverse Extended Kalman Filter -- Part I: Fundamentals [19.078991171384015]
本稿では,逆拡張カルマンフィルタ(I-EKF)の理論を詳述する。
我々は、有界非線型性と未知行列アプローチの両方を用いて理論的安定性を保証する。
本論文(パートII)では,不完全なシステムモデル情報を扱うために,Hilbert空間に基づくEKFの再生を提案する。
論文 参考訳(メタデータ) (2022-01-05T10:56:58Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Sample Complexity of Kalman Filtering for Unknown Systems [21.565920482293592]
プロセスとセンサノイズによって駆動される、未知かつ部分的に観察される自律線形時間不変系に対して、カルマンフィルタ(KF)を設計する作業について検討する。
システム同定ステップが十分に正確な推定を行うと、Certainty Equivalent (CE) KFは証明可能な準最適保証を享受する。
論文 参考訳(メタデータ) (2019-12-27T19:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。