論文の概要: Regret Analysis of Policy Optimization over Submanifolds for Linearly
Constrained Online LQG
- arxiv url: http://arxiv.org/abs/2403.08553v1
- Date: Wed, 13 Mar 2024 14:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:11:04.608588
- Title: Regret Analysis of Policy Optimization over Submanifolds for Linearly
Constrained Online LQG
- Title(参考訳): 線形部分多様体上の政策最適化の回帰解析
制約付きオンラインLQG
- Authors: Ting-Jui Chang and Shahin Shahrampour
- Abstract要約: 制御器に与えられた線形制約を持つオンライン線形二次ガウス問題について検討する。
関数列の第1次および第2次情報に対する予測に基づいてオンラインコントローラを提供するオンライン楽観的ニュートン(OONM)を提案する。
- 参考スコア(独自算出の注目度): 12.201535821920624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancement in online optimization and control has provided novel
tools to study online linear quadratic regulator (LQR) problems, where cost
matrices are varying adversarially over time. However, the controller
parameterization of existing works may not satisfy practical conditions like
sparsity due to physical connections. In this work, we study online linear
quadratic Gaussian problems with a given linear constraint imposed on the
controller. Inspired by the recent work of [1] which proposed, for a linearly
constrained policy optimization of an offline LQR, a second order method
equipped with a Riemannian metric that emerges naturally in the context of
optimal control problems, we propose online optimistic Newton on manifold
(OONM) which provides an online controller based on the prediction on the first
and second order information of the function sequence. To quantify the proposed
algorithm, we leverage the notion of regret defined as the sub-optimality of
its cumulative cost to that of a (locally) minimizing controller sequence and
provide the regret bound in terms of the path-length of the minimizer sequence.
Simulation results are also provided to verify the property of OONM.
- Abstract(参考訳): オンライン最適化と制御の最近の進歩は、オンライン線形二次規制(LQR)問題を研究するための新しいツールを提供してきた。
しかし、既存の作業の制御パラメータ化は、物理的接続による疎らさのような現実的な条件を満たさない可能性がある。
本研究では,オンライン線形二次ガウス問題を制御器に与えられた線形制約を用いて検討する。
オフラインLQRの線形に制約されたポリシー最適化のために、最適制御問題の文脈で自然に現れるリーマン計量を備えた2次法を提案し、関数列の第1次および第2次情報に基づいてオンライン制御を行うオンライン楽観的ニュートン(OONM)を提案する。
提案アルゴリズムを定量化するために、累積コストのサブ最適性として定義される後悔の概念を、(局所的に)最小化コントローラシーケンスに利用し、最小化器シーケンスのパス長の観点から後悔境界を与える。
OONMの特性を検証するためのシミュレーション結果も提供される。
関連論文リスト
- Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Primal-Dual Contextual Bayesian Optimization for Control System Online
Optimization with Time-Average Constraints [21.38692458445459]
本稿では,制約付き閉ループ制御システムのオンライン性能最適化問題について検討する。
動的最適解に対する線形累積後悔を克服する主元-双対文脈ベイズ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-12T18:37:52Z) - Regret Analysis of Online LQR Control via Trajectory Prediction and
Tracking: Extended Version [1.6344851071810074]
本稿では,オンライン線形二次規制(LQR)制御の新しい手法の提案と解析を行う。
提案手法では,最適軌道の予測に利用可能なコスト行列と,その方向を追従するトラッキングコントローラを用いる。
提案手法は,従来のオンラインLQR法と比較して性能が向上することを示す。
論文 参考訳(メタデータ) (2023-02-21T02:48:57Z) - Augmented Lagrangian Methods for Time-varying Constrained Online Convex
Optimization [1.662966122370634]
オンライン凸最適化(OCO)と時間的損失と制約関数について検討する。
まず,時間変動関数制約OCOのためのモデルベース拡張ラグランジアン法(MALM)のクラスを開発する。
提案アルゴリズムの効率性を示すために, 制約OCOのいくつかの例について数値計算を行った。
論文 参考訳(メタデータ) (2022-05-19T14:03:25Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Logarithmic Regret for Adversarial Online Control [56.12283443161479]
対数的後悔を伴う最初のアルゴリズムを任意対数外乱列に対して与える。
我々のアルゴリズムと分析はオフライン制御法の特徴を利用してオンライン制御問題を(遅延)オンライン学習に還元する。
論文 参考訳(メタデータ) (2020-02-29T06:29:19Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。