論文の概要: Sample Complexity of Linear Quadratic Regulator Without Initial Stability
- arxiv url: http://arxiv.org/abs/2502.14210v1
- Date: Thu, 20 Feb 2025 02:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:26:30.812894
- Title: Sample Complexity of Linear Quadratic Regulator Without Initial Stability
- Title(参考訳): 初期安定性のない線形二次レギュレータのサンプル複素性
- Authors: Amirreza Neshaei Moghaddam, Alex Olshevsky, Bahman Gharesifard,
- Abstract要約: ReINFORCEに触発されて、未知のパラメータを持つ線形二次レギュレータ(LQR)問題に対して、新しい回帰水平アルゴリズムを導入する。
従来の手法とは異なり、本アルゴリズムはサンプルの複雑さの順序を同じに保ちながら、2点勾配推定に依存することを回避している。
- 参考スコア(独自算出の注目度): 11.98212766542468
- License:
- Abstract: Inspired by REINFORCE, we introduce a novel receding-horizon algorithm for the Linear Quadratic Regulator (LQR) problem with unknown parameters. Unlike prior methods, our algorithm avoids reliance on two-point gradient estimates while maintaining the same order of sample complexity. Furthermore, it eliminates the restrictive requirement of starting with a stable initial policy, broadening its applicability. Beyond these improvements, we introduce a refined analysis of error propagation through the contraction of the Riemannian distance over the Riccati operator. This refinement leads to a better sample complexity and ensures improved convergence guarantees. Numerical simulations validate the theoretical results, demonstrating the method's practical feasibility and performance in realistic scenarios.
- Abstract(参考訳): ReINFORCEに触発されて、未知のパラメータを持つ線形二次レギュレータ(LQR)問題に対して、新しい回帰水平アルゴリズムを導入する。
従来の手法とは異なり、本アルゴリズムはサンプルの複雑さの順序を同じに保ちながら、2点勾配推定に依存することを回避している。
さらに、安定した初期ポリシーから始めるという制限的な要件を排除し、適用性を広げる。
これらの改善の他に、リカティ作用素上のリーマン距離の縮約による誤差伝播の洗練された解析を導入する。
この改良によりサンプルの複雑さが向上し、コンバージェンス保証の改善が保証される。
数値シミュレーションにより理論的結果が検証され,現実シナリオにおける実際の実現可能性と性能が実証された。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Randomized algorithms and PAC bounds for inverse reinforcement learning in continuous spaces [47.907236421762626]
本研究は、連続状態と作用空間を持つ離散時間割引マルコフ決定過程を研究する。
まず、専門家の政策全体にアクセスでき、逆問題に対する解決策の集合を特徴づけるケースについて考察する。
論文 参考訳(メタデータ) (2024-05-24T12:53:07Z) - Parameter-Agnostic Optimization under Relaxed Smoothness [25.608968462899316]
本研究では,モメンタムを用いた正規化グラディエントDescence (NSGD-M) が,問題パラメータの事前知識を必要とせずに,速度-最適の複雑性を実現できることを示す。
決定論的設定では、指数係数は、バックトラックラインサーチによるグラディエント・ディクスト(Gradient Descent)を用いることで、中和することができる。
論文 参考訳(メタデータ) (2023-11-06T16:39:53Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Fully Stochastic Trust-Region Sequential Quadratic Programming for
Equality-Constrained Optimization Problems [62.83783246648714]
目的と決定論的等式制約による非線形最適化問題を解くために,逐次2次プログラミングアルゴリズム(TR-StoSQP)を提案する。
アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して不確定なヘッセン行列を利用することができる。
論文 参考訳(メタデータ) (2022-11-29T05:52:17Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Incremental Without Replacement Sampling in Nonconvex Optimization [0.0]
経験的リスクに対する最小限の分解法は、一般に近似設定で分析される。
一方、このような手法の現代的な実装は漸進的であり、それらは置換せずにサンプリングに依存しており、利用可能な分析は極めて少ない。
我々は、多変数な漸進勾配スキームを解析することにより、後者の変分に対する収束保証を提供する。
論文 参考訳(メタデータ) (2020-07-15T09:17:29Z) - Convergence and sample complexity of gradient methods for the model-free
linear quadratic regulator problem [27.09339991866556]
本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。
我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
論文 参考訳(メタデータ) (2019-12-26T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。