論文の概要: Learning Stabilizing Policies via an Unstable Subspace Representation
- arxiv url: http://arxiv.org/abs/2505.01348v1
- Date: Fri, 02 May 2025 15:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:20.078332
- Title: Learning Stabilizing Policies via an Unstable Subspace Representation
- Title(参考訳): 不安定な部分空間表現による安定化政策の学習
- Authors: Leonardo F. Toso, Lintao Ye, James Anderson,
- Abstract要約: 本研究では,線形時間不変系(LTI)を安定化させる学習の課題について検討する。
本稿では,まずシステムの左不安定部分空間を学習する二相アプローチを提案する。
不安定な部分空間上での操作がサンプルの複雑さを減少させることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning to stabilize (LTS) a linear time-invariant (LTI) system. Policy gradient (PG) methods for control assume access to an initial stabilizing policy. However, designing such a policy for an unknown system is one of the most fundamental problems in control, and it may be as hard as learning the optimal policy itself. Existing work on the LTS problem requires large data as it scales quadratically with the ambient dimension. We propose a two-phase approach that first learns the left unstable subspace of the system and then solves a series of discounted linear quadratic regulator (LQR) problems on the learned unstable subspace, targeting to stabilize only the system's unstable dynamics and reduce the effective dimension of the control space. We provide non-asymptotic guarantees for both phases and demonstrate that operating on the unstable subspace reduces sample complexity. In particular, when the number of unstable modes is much smaller than the state dimension, our analysis reveals that LTS on the unstable subspace substantially speeds up the stabilization process. Numerical experiments are provided to support this sample complexity reduction achieved by our approach.
- Abstract(参考訳): 本研究では,線形時間不変系(LTI)を安定化させる学習の課題について検討する。
コントロールのためのポリシー勾配(PG)メソッドは、初期安定化ポリシーへのアクセスを前提としている。
しかし、未知のシステムのポリシーを設計することは制御における最も基本的な問題の1つであり、最適なポリシーそのものを学ぶのと同じくらい難しいかもしれない。
LTS問題に関する既存の研究は、周囲の次元と2次にスケールするため、大きなデータを必要とする。
本稿では、まずシステムの左不安定部分空間を学習し、次に学習された不安定部分空間上の一連の割引線形二次規制(LQR)問題を解き、システムの不安定なダイナミクスのみを安定化させ、制御空間の有効次元を減少させる2相アプローチを提案する。
両相の漸近的保証を提供し、不安定な部分空間上での操作がサンプルの複雑さを減少させることを示す。
特に、不安定モードの数が状態次元よりもはるかに小さい場合、不安定な部分空間上のLTSが安定化過程を著しく高速化することを明らかにする。
提案手法によって達成されたこのサンプル複雑性低減を支援するために, 数値解析実験を行った。
関連論文リスト
- System stabilization with policy optimization on unstable latent manifolds [0.5261718469769449]
提案手法は,データサンプルの少ない複雑な物理システムを安定化する。
実験により、提案手法はデータサンプルの少ない複雑な物理システムを安定化させることを示した。
論文 参考訳(メタデータ) (2024-07-08T21:57:28Z) - Synthesizing Stable Reduced-Order Visuomotor Policies for Nonlinear
Systems via Sums-of-Squares Optimization [28.627377507894003]
本稿では,非線形システムの制御観測のためのノイズフィードバック,低次出力-制御-パーセプションポリシを提案する。
画像からのこれらのシステムが確実に安定できない場合、我々のアプローチは安定性の保証を提供する。
論文 参考訳(メタデータ) (2023-04-24T19:34:09Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Neural System Level Synthesis: Learning over All Stabilizing Policies
for Nonlinear Systems [0.0]
本稿では,パラメータ最適化における閉ループ安定性を保証するニューラルSLS(Neur-SLS)手法を提案する。
本稿では,Recurrent Equilibrium Networks (RENs) に基づく最近のDeep Neural Network (DNN) モデルを用いて,非線形安定演算子の豊富なクラスについて学習する。
論文 参考訳(メタデータ) (2022-03-22T15:22:31Z) - Stabilizing Dynamical Systems via Policy Gradient Methods [32.88312419270879]
完全に観察された力学系を安定化するためのモデルフリーなアルゴリズムを提案する。
本研究では,線形システムの安定化制御を効率よく行うことを証明する。
我々は,共通制御ベンチマークにおけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2021-10-13T00:58:57Z) - Stable Online Control of Linear Time-Varying Systems [49.41696101740271]
COCO-LQは、大規模なLTVシステムの入出力安定性を保証する効率的なオンライン制御アルゴリズムである。
COCO-LQの性能を実証実験とパワーシステム周波数制御の両例で実証した。
論文 参考訳(メタデータ) (2021-04-29T06:18:49Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Learning Stabilizing Controllers for Unstable Linear Quadratic
Regulators from a Single Trajectory [85.29718245299341]
線形2次制御器(LQR)としても知られる2次コストモデルの下で線形制御器を研究する。
楕円形不確実性集合内の全ての系を安定化させる制御器を構成する2つの異なる半定値プログラム(SDP)を提案する。
高い確率で安定化コントローラを迅速に識別できる効率的なデータ依存アルゴリズムであるtextsceXplorationを提案する。
論文 参考訳(メタデータ) (2020-06-19T08:58:57Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。