論文の概要: Convergence and sample complexity of gradient methods for the model-free
linear quadratic regulator problem
- arxiv url: http://arxiv.org/abs/1912.11899v3
- Date: Mon, 15 Mar 2021 18:45:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-10 08:11:11.705782
- Title: Convergence and sample complexity of gradient methods for the model-free
linear quadratic regulator problem
- Title(参考訳): モデルフリー線形二次レギュレータ問題に対する勾配法の収束とサンプル複雑性
- Authors: Hesameddin Mohammadi, Armin Zare, Mahdi Soltanolkotabi, Mihailo R.
Jovanovi\'c
- Abstract要約: 本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。
我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
- 参考スコア(独自算出の注目度): 27.09339991866556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free reinforcement learning attempts to find an optimal control action
for an unknown dynamical system by directly searching over the parameter space
of controllers. The convergence behavior and statistical properties of these
approaches are often poorly understood because of the nonconvex nature of the
underlying optimization problems and the lack of exact gradient computation. In
this paper, we take a step towards demystifying the performance and efficiency
of such methods by focusing on the standard infinite-horizon linear quadratic
regulator problem for continuous-time systems with unknown state-space
parameters. We establish exponential stability for the ordinary differential
equation (ODE) that governs the gradient-flow dynamics over the set of
stabilizing feedback gains and show that a similar result holds for the
gradient descent method that arises from the forward Euler discretization of
the corresponding ODE. We also provide theoretical bounds on the convergence
rate and sample complexity of the random search method with two-point gradient
estimates. We prove that the required simulation time for achieving
$\epsilon$-accuracy in the model-free setup and the total number of function
evaluations both scale as $\log \, (1/\epsilon)$.
- Abstract(参考訳): モデルフリー強化学習は、コントローラのパラメータ空間を直接探索することで未知の力学系の最適制御動作を見つけようとする。
これらのアプローチの収束挙動と統計特性は、基礎となる最適化問題の非凸性と正確な勾配計算の欠如のためによく理解されていない。
本稿では,未知状態空間パラメータを持つ連続時間系の標準無限ホライゾン線形二次レギュレータ問題に着目し,その性能と効率を非神秘化する。
安定化フィードバックゲインの集合上で勾配-流れのダイナミクスを支配できる常微分方程式(ODE)に対して指数的安定性を確立し、対応するODEの前方オイラー離散化から生じる勾配降下法に対して同様の結果が成り立つことを示す。
また, 2点勾配推定を用いたランダム探索法の収束率とサンプル複雑性に関する理論的境界を与える。
モデルフリー設定において$\epsilon$-accuracyを達成するために必要なシミュレーション時間と関数評価の総数はともに$\log \, (1/\epsilon)$であることを示す。
関連論文リスト
- Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Harmonic Path Integral Diffusion [0.4527270266697462]
本稿では,連続多変量確率分布から抽出する新しい手法を提案する。
本手法では,状態空間の起点を中心とするデルタ関数を$t=0$とし,ターゲット分布に$t=1$で変換する。
これらのアルゴリズムは他のサンプリング手法、特にシミュレートおよびパス積分サンプリングと対比し、解析制御、精度、計算効率の点でそれらの利点を強調した。
論文 参考訳(メタデータ) (2024-09-23T16:20:21Z) - Efficient Sampling for Data-Driven Frequency Stability Constraint via Forward-Mode Automatic Differentiation [5.603382086370097]
本稿では,フォワードモード自動微分による勾配データ生成手法を提案する。
この方法では、元の力学系は、元の状態の感度のダイナミクスを表す新しい状態で拡張される。
提案アルゴリズムは, 非線形微分法と有限差分法と比較して, サンプリングアルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-21T03:50:11Z) - Hybrid algorithm simulating non-equilibrium steady states of an open
quantum system [10.752869788647802]
非平衡定常状態は開量子系の研究の焦点である。
これらの定常状態を探すための従来の変分アルゴリズムは、資源集約的な実装に悩まされてきた。
我々は、リンドブラッド方程式の演算子-サム形式をシミュレートすることにより、非平衡定常状態の効率的な探索を行う新しい変分量子アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:57:27Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - A Priori Denoising Strategies for Sparse Identification of Nonlinear
Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。
一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T23:31:25Z) - Breaking the Convergence Barrier: Optimization via Fixed-Time Convergent
Flows [4.817429789586127]
本稿では, 固定時間安定力学系の概念に基づいて, 加速を実現するための多言語最適化フレームワークを提案する。
提案手法の高速化された収束特性を,最先端の最適化アルゴリズムに対して様々な数値例で検証する。
論文 参考訳(メタデータ) (2021-12-02T16:04:40Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。