論文の概要: Model-Free Output Feedback Stabilization via Policy Gradient Methods
- arxiv url: http://arxiv.org/abs/2601.19284v2
- Date: Thu, 29 Jan 2026 08:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 14:13:19.941305
- Title: Model-Free Output Feedback Stabilization via Policy Gradient Methods
- Title(参考訳): ポリシーグラディエント法によるモデルフリー出力フィードバック安定化
- Authors: Ankang Zhang, Ming Chi, Xiaoling Wang, Lintao Ye,
- Abstract要約: 出力フィードバックのある部分観測可能な線形力学系のモデルフリー学習に向けて一歩前進する。
本稿では,グローバル収束保証なしでPG手法の境界を問題に拡張するアルゴリズムフレームワークを提案する。
システムトラジェクトリに基づくゼロ階PG更新と定常点への収束を利用して、提案アルゴリズムは安定化された出力フィードバックポリシーを返す。
- 参考スコア(独自算出の注目度): 20.783658838849426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stabilizing a dynamical system is a fundamental problem that serves as a cornerstone for many complex tasks in the field of control systems. The problem becomes challenging when the system model is unknown. Among the Reinforcement Learning (RL) algorithms that have been successfully applied to solve problems pertaining to unknown linear dynamical systems, the policy gradient (PG) method stands out due to its ease of implementation and can solve the problem in a model-free manner. However, most of the existing works on PG methods for unknown linear dynamical systems assume full-state feedback. In this paper, we take a step towards model-free learning for partially observable linear dynamical systems with output feedback and focus on the fundamental stabilization problem of the system. We propose an algorithmic framework that stretches the boundary of PG methods to the problem without global convergence guarantees. We show that by leveraging zeroth-order PG update based on system trajectories and its convergence to stationary points, the proposed algorithms return a stabilizing output feedback policy for discrete-time linear dynamical systems. We also explicitly characterize the sample complexity of our algorithm and verify the effectiveness of the algorithm using numerical examples.
- Abstract(参考訳): 動的システムの安定化は、制御システムの分野における多くの複雑なタスクの基盤となる基本的な問題である。
システムモデルが不明な場合、問題は難しくなります。
未知の線形力学系に関する問題を解くためにRLアルゴリズムがうまく適用されている中で、ポリシー勾配法(PG法)は実装が容易であることから際立っている。
しかしながら、未知の線形力学系に対するPG法に関する既存の研究の多くは、完全な状態フィードバックを前提としている。
本稿では,出力フィードバックを持つ線形力学系のモデル自由学習に向けて一歩踏み出し,システムの基本安定化問題に焦点をあてる。
本稿では,グローバル収束保証なしでPG手法の境界を問題に拡張するアルゴリズムフレームワークを提案する。
システムトラジェクトリに基づくゼロ階PG更新と定常点への収束を利用して、提案アルゴリズムは離散時間線形力学系に対する安定化出力フィードバックポリシーを返却する。
また,本アルゴリズムのサンプル複雑性を明示的に特徴付け,数値例を用いてアルゴリズムの有効性を検証する。
関連論文リスト
- Stochastic Reinforcement Learning with Stability Guarantees for Control of Unknown Nonlinear Systems [6.571209126567701]
本稿では,力学の局所線形表現を学習することでシステムを安定化する強化学習アルゴリズムを提案する。
本稿では,いくつかの高次元力学系におけるアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2024-09-12T20:07:54Z) - The Power of Learned Locally Linear Models for Nonlinear Policy
Optimization [26.45568696453259]
本稿では,一般的な非線形システムに対する簡易な戦略の厳密な分析を行う。
非線形系力学の局所線形モデルの推定と$mathttiLQR$のようなポリシー更新の繰り返しを行うアルゴリズムを解析する。
論文 参考訳(メタデータ) (2023-05-16T17:13:00Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Learning over All Stabilizing Nonlinear Controllers for a
Partially-Observed Linear System [4.3012765978447565]
線形力学系に対する非線形出力フィードバックコントローラのパラメータ化を提案する。
提案手法は, 制約を満たすことなく, 部分的に観測可能な線形力学系の閉ループ安定性を保証する。
論文 参考訳(メタデータ) (2021-12-08T10:43:47Z) - Stabilizing Dynamical Systems via Policy Gradient Methods [32.88312419270879]
完全に観察された力学系を安定化するためのモデルフリーなアルゴリズムを提案する。
本研究では,線形システムの安定化制御を効率よく行うことを証明する。
我々は,共通制御ベンチマークにおけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2021-10-13T00:58:57Z) - Supervised DKRC with Images for Offline System Identification [77.34726150561087]
現代の力学系はますます非線形で複雑なものになりつつある。
予測と制御のためのコンパクトで包括的な表現でこれらのシステムをモデル化するフレームワークが必要である。
本手法は,教師付き学習手法を用いてこれらの基礎関数を学習する。
論文 参考訳(メタデータ) (2021-09-06T04:39:06Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Active Learning for Nonlinear System Identification with Guarantees [102.43355665393067]
状態遷移が既知の状態-作用対の特徴埋め込みに線形に依存する非線形力学系のクラスについて検討する。
そこで本稿では, トラジェクティブ・プランニング, トラジェクティブ・トラッキング, システムの再推定という3つのステップを繰り返すことで, この問題を解決するためのアクティブ・ラーニング・アプローチを提案する。
本手法は, 非線形力学系を標準線形回帰の統計速度と同様, パラメトリック速度で推定する。
論文 参考訳(メタデータ) (2020-06-18T04:54:11Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。