論文の概要: Predictive Linear Online Tracking for Unknown Targets
- arxiv url: http://arxiv.org/abs/2402.10036v2
- Date: Wed, 12 Jun 2024 15:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 22:53:54.943272
- Title: Predictive Linear Online Tracking for Unknown Targets
- Title(参考訳): 未知目標に対する予測線形オンライントラッキング
- Authors: Anastasios Tsiamis, Aren Karapetyan, Yueshan Li, Efe C. Balta, John Lygeros,
- Abstract要約: 線形制御システムにおけるオンライントラッキングの問題について検討し,移動目標を追従することを目的とした。
予測線形オンライントラッキング(PLOT)と呼ばれる新しいアルゴリズムを提案する。
PLOTを実機に実装し,オープンソースソフトウェアを提供することにより,実機上でのオンライン制御手法の最初の成功例の1つを示す。
- 参考スコア(独自算出の注目度): 5.047136039782827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the problem of online tracking in linear control systems, where the objective is to follow a moving target. Unlike classical tracking control, the target is unknown, non-stationary, and its state is revealed sequentially, thus, fitting the framework of online non-stochastic control. We consider the case of quadratic costs and propose a new algorithm, called predictive linear online tracking (PLOT). The algorithm uses recursive least squares with exponential forgetting to learn a time-varying dynamic model of the target. The learned model is used in the optimal policy under the framework of receding horizon control. We show the dynamic regret of PLOT scales with $\mathcal{O}(\sqrt{TV_T})$, where $V_T$ is the total variation of the target dynamics and $T$ is the time horizon. Unlike prior work, our theoretical results hold for non-stationary targets. We implement PLOT on a real quadrotor and provide open-source software, thus, showcasing one of the first successful applications of online control methods on real hardware.
- Abstract(参考訳): 本稿では,リニア制御システムにおけるオンライントラッキングの問題について検討する。
古典的追跡制御とは異なり、ターゲットは非定常的であり、その状態は順次明らかにされ、オンラインの非確率的制御の枠組みに適合する。
本稿では,2次コストの場合を考慮し,予測線形オンライントラッキング(PLOT)と呼ばれる新しいアルゴリズムを提案する。
このアルゴリズムは、指数的忘れを伴う再帰最小二乗を用いて、ターゲットの時間変化動的モデルを学ぶ。
学習モデルは、後退水平制御の枠組みの下で最適な政策で使用される。
PLOTスケールの動的後悔を$\mathcal{O}(\sqrt{TV_T})$で示します。
これまでの研究とは違って、理論的な結果は非定常目標に当てはまる。
PLOTを実機に実装し,オープンソースソフトウェアを提供することにより,実機上でのオンライン制御手法の最初の成功例の1つを示す。
関連論文リスト
- In-Trajectory Inverse Reinforcement Learning: Learn Incrementally Before An Ongoing Trajectory Terminates [10.438810967483438]
逆強化学習(IRL)は報酬関数とそれに対応するポリシーを学習することを目的としている。
現在のIRLの作業は、学習するために少なくとも1つの完全な軌跡を集めるのを待つ必要があるため、進行中の軌跡から漸進的に学習することはできない。
本稿では,現在進行中の軌跡の初期状態対を観察しながら,報酬関数と対応する政策を学習する問題について考察する。
論文 参考訳(メタデータ) (2024-10-21T03:16:32Z) - Learning to Control under Time-Varying Environment [18.48729114775298]
本稿では,線形時間変化(LTV)力学系における後悔の問題について検討する。
提案するオンラインアルゴリズムは, 計算に難易度を保証した最初のオンラインアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-06T11:40:46Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Regret Analysis of Distributed Online LQR Control for Unknown LTI
Systems [8.832969171530056]
線形時間不変(LTI)系に対する分散オンライン線形2次レギュレータ(LQR)問題について研究する。
本稿では,各エージェントが探索段階でシステム推定を計算するオンラインlqrアルゴリズムの分散型を提案する。
我々は,提案アルゴリズムが$tildeO(T2/3)$をスケールしていることを証明する。
論文 参考訳(メタデータ) (2021-05-15T23:02:58Z) - Online Policy Gradient for Model Free Learning of Linear Quadratic
Regulators with $\sqrt{T}$ Regret [0.0]
同様の後悔の保証を実現する最初のモデルフリーアルゴリズムを提案する。
本手法は,効率的な政策勾配スキームと,政策空間における探索コストの新しい,より厳密な分析に依拠する。
論文 参考訳(メタデータ) (2021-02-25T00:25:41Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Breaking the Deadly Triad with a Target Network [80.82586530205776]
致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。
我々は,二段階最適化を使わずに,非制限的かつ変化的な動作ポリシーの下で,最初の収束線形$Q$-learningアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-01-21T21:50:10Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。