論文の概要: Convergence and sample complexity of gradient methods for the model-free
linear quadratic regulator problem
- arxiv url: http://arxiv.org/abs/1912.11899v3
- Date: Mon, 15 Mar 2021 18:45:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-10 08:11:11.705782
- Title: Convergence and sample complexity of gradient methods for the model-free
linear quadratic regulator problem
- Title(参考訳): モデルフリー線形二次レギュレータ問題に対する勾配法の収束とサンプル複雑性
- Authors: Hesameddin Mohammadi, Armin Zare, Mahdi Soltanolkotabi, Mihailo R.
Jovanovi\'c
- Abstract要約: 本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。
我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
- 参考スコア(独自算出の注目度): 27.09339991866556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free reinforcement learning attempts to find an optimal control action
for an unknown dynamical system by directly searching over the parameter space
of controllers. The convergence behavior and statistical properties of these
approaches are often poorly understood because of the nonconvex nature of the
underlying optimization problems and the lack of exact gradient computation. In
this paper, we take a step towards demystifying the performance and efficiency
of such methods by focusing on the standard infinite-horizon linear quadratic
regulator problem for continuous-time systems with unknown state-space
parameters. We establish exponential stability for the ordinary differential
equation (ODE) that governs the gradient-flow dynamics over the set of
stabilizing feedback gains and show that a similar result holds for the
gradient descent method that arises from the forward Euler discretization of
the corresponding ODE. We also provide theoretical bounds on the convergence
rate and sample complexity of the random search method with two-point gradient
estimates. We prove that the required simulation time for achieving
$\epsilon$-accuracy in the model-free setup and the total number of function
evaluations both scale as $\log \, (1/\epsilon)$.
- Abstract(参考訳): モデルフリー強化学習は、コントローラのパラメータ空間を直接探索することで未知の力学系の最適制御動作を見つけようとする。
これらのアプローチの収束挙動と統計特性は、基礎となる最適化問題の非凸性と正確な勾配計算の欠如のためによく理解されていない。
本稿では,未知状態空間パラメータを持つ連続時間系の標準無限ホライゾン線形二次レギュレータ問題に着目し,その性能と効率を非神秘化する。
安定化フィードバックゲインの集合上で勾配-流れのダイナミクスを支配できる常微分方程式(ODE)に対して指数的安定性を確立し、対応するODEの前方オイラー離散化から生じる勾配降下法に対して同様の結果が成り立つことを示す。
また, 2点勾配推定を用いたランダム探索法の収束率とサンプル複雑性に関する理論的境界を与える。
モデルフリー設定において$\epsilon$-accuracyを達成するために必要なシミュレーション時間と関数評価の総数はともに$\log \, (1/\epsilon)$であることを示す。
関連論文リスト
- Parallel-in-Time Probabilistic Numerical ODE Solvers [30.788077484994176]
常微分方程式(ODE)の確率論的数値解法は、力学系の数値シミュレーションをベイズ状態推定の問題として扱う。
我々は,反復拡張カルマンスムーダの時間並列定式化に基づいて,並列時間確率数値ODEソルバを定式化する。
論文 参考訳(メタデータ) (2023-10-02T12:32:21Z) - Hybrid algorithm simulating non-equilibrium steady states of an open
quantum system [10.752869788647802]
非平衡定常状態は開量子系の研究の焦点である。
これらの定常状態を探すための従来の変分アルゴリズムは、資源集約的な実装に悩まされてきた。
我々は、リンドブラッド方程式の演算子-サム形式をシミュレートすることにより、非平衡定常状態の効率的な探索を行う新しい変分量子アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:57:27Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Breaking the Convergence Barrier: Optimization via Fixed-Time Convergent
Flows [4.817429789586127]
本稿では, 固定時間安定力学系の概念に基づいて, 加速を実現するための多言語最適化フレームワークを提案する。
提案手法の高速化された収束特性を,最先端の最適化アルゴリズムに対して様々な数値例で検証する。
論文 参考訳(メタデータ) (2021-12-02T16:04:40Z) - A Two-Time-Scale Stochastic Optimization Framework with Applications in
Control and Reinforcement Learning [22.07834608976826]
本研究では, 時間変化勾配から試料が生成する問題を解くための2段階勾配法について検討した。
我々は$mathcal(k-2/3O)$の収束が達成されていることを示す。
論文 参考訳(メタデータ) (2021-09-29T23:15:23Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。