論文の概要: On the Gradient Domination of the LQG Problem
- arxiv url: http://arxiv.org/abs/2507.09026v1
- Date: Fri, 11 Jul 2025 21:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.158336
- Title: On the Gradient Domination of the LQG Problem
- Title(参考訳): LQG問題の勾配支配について
- Authors: Kasra Fallah, Leonardo F. Toso, James Anderson,
- Abstract要約: 政策勾配(PG)法による線形二次ガウス(LQG)規制問題の解について考察する。
制御入力の履歴表現を過去の入力によってパラメータ化し、前のpのタイムステップから出力する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider solutions to the linear quadratic Gaussian (LQG) regulator problem via policy gradient (PG) methods. Although PG methods have demonstrated strong theoretical guarantees in solving the linear quadratic regulator (LQR) problem, despite its nonconvex landscape, their theoretical understanding in the LQG setting remains limited. Notably, the LQG problem lacks gradient dominance in the classical parameterization, i.e., with a dynamic controller, which hinders global convergence guarantees. In this work, we study PG for the LQG problem by adopting an alternative parameterization of the set of stabilizing controllers and employing a lifting argument. We refer to this parameterization as a history representation of the control input as it is parameterized by past input and output data from the previous p time-steps. This representation enables us to establish gradient dominance and approximate smoothness for the LQG cost. We prove global convergence and per-iteration stability guarantees for policy gradient LQG in model-based and model-free settings. Numerical experiments on an open-loop unstable system are provided to support the global convergence guarantees and to illustrate convergence under different history lengths of the history representation.
- Abstract(参考訳): 政策勾配(PG)法による線形二次ガウス(LQG)規制問題の解について考察する。
PG法は線形二次レギュレータ(LQR)問題を解く上で強い理論的保証を示してきたが、その非凸な状況にもかかわらず、LQG設定における理論的理解は限定的である。
特に、LQG問題は古典的なパラメータ化、すなわちグローバル収束の保証を妨げる動的コントローラにおいて、勾配優位性を欠いている。
本研究では,LQG問題に対するPGについて,安定化制御器の代替パラメータ化を採用し,リフト引数を用いて検討する。
我々は、このパラメータ化を制御入力の履歴表現と呼び、過去の入力と前のpのタイムステップからの出力データによってパラメータ化される。
この表現により、LQGコストの勾配優位性と近似滑らか性を確立することができる。
我々は、モデルベースおよびモデルフリー設定におけるポリシー勾配LQGに対する、グローバル収束と解定ごとの安定性を保証する。
オープンループ不安定系の数値実験は,世界的収束保証を支援し,歴史表現の異なる履歴長での収束を説明するために提供される。
関連論文リスト
- Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。
モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。
この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文 参考訳(メタデータ) (2024-08-05T14:11:51Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Towards Model-Free LQR Control over Rate-Limited Channels [2.908482270923597]
作業者エージェントが(LQRコストの)量子化ポリシー勾配を有限ビットレートのノイズレスチャネル上でサーバに送信する環境について検討する。
我々は、適応量子化グラディエントDescent (textttAQGD) という新しいアルゴリズムを提案し、ある有限しきい値ビットレートを超えると、textttAQGDは、グローバルな最適ポリシーへの指数的に高速な収束を保証することを証明した。
論文 参考訳(メタデータ) (2024-01-02T15:59:00Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Revisiting LQR Control from the Perspective of Receding-Horizon Policy
Gradient [2.1756081703276]
回帰水平政策勾配(RHPG)の観点から、離散時間線形二次規制(LQR)問題を再考する。
最適LQR解に対して安定化かつ$epsilon-closeの制御ポリシを学習するために,G の詳細なサンプル解析を行う。
論文 参考訳(メタデータ) (2023-02-25T19:16:40Z) - Fully Stochastic Trust-Region Sequential Quadratic Programming for
Equality-Constrained Optimization Problems [62.83783246648714]
目的と決定論的等式制約による非線形最適化問題を解くために,逐次2次プログラミングアルゴリズム(TR-StoSQP)を提案する。
アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して不確定なヘッセン行列を利用することができる。
論文 参考訳(メタデータ) (2022-11-29T05:52:17Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Convergence Guarantees of Policy Optimization Methods for Markovian Jump
Linear Systems [3.3343656101775365]
ガウスニュートン法は, 閉ループ力学を平均的に安定化させる制御器において, 線形速度で MJLS の最適状態フィードバック制御器に収束することを示す。
我々の理論を支持する一例を示す。
論文 参考訳(メタデータ) (2020-02-10T21:13:42Z) - A homotopy approach to coherent quantum LQG control synthesis using
discounted performance criteria [2.0508733018954843]
本稿では,プラントとコヒーレント(測定不要)制御器のフィールド経由フィードバック接続に対する線形四重項ガウス制御について述べる。
制御の目的は、クローズドループシステムを内部的に安定させ、植物変数を含む無限水平コストを最小化することである。
論文 参考訳(メタデータ) (2020-02-06T18:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。