Fugu-MT 論文翻訳(概要): Convergence and sample complexity of gradient methods for the model-free linear quadratic regulator problem

論文の概要: Convergence and sample complexity of gradient methods for the model-free linear quadratic regulator problem

arxiv url: http://arxiv.org/abs/1912.11899v3
Date: Mon, 15 Mar 2021 18:45:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-10 08:11:11.705782
Title: Convergence and sample complexity of gradient methods for the model-free linear quadratic regulator problem
Title（参考訳）: モデルフリー線形二次レギュレータ問題に対する勾配法の収束とサンプル複雑性
Authors: Hesameddin Mohammadi, Armin Zare, Mahdi Soltanolkotabi, Mihailo R. Jovanovi\'c
Abstract要約: 本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
参考スコア（独自算出の注目度）: 27.09339991866556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model-free reinforcement learning attempts to find an optimal control action for an unknown dynamical system by directly searching over the parameter space of controllers. The convergence behavior and statistical properties of these approaches are often poorly understood because of the nonconvex nature of the underlying optimization problems and the lack of exact gradient computation. In this paper, we take a step towards demystifying the performance and efficiency of such methods by focusing on the standard infinite-horizon linear quadratic regulator problem for continuous-time systems with unknown state-space parameters. We establish exponential stability for the ordinary differential equation (ODE) that governs the gradient-flow dynamics over the set of stabilizing feedback gains and show that a similar result holds for the gradient descent method that arises from the forward Euler discretization of the corresponding ODE. We also provide theoretical bounds on the convergence rate and sample complexity of the random search method with two-point gradient estimates. We prove that the required simulation time for achieving $\epsilon$-accuracy in the model-free setup and the total number of function evaluations both scale as $\log \, (1/\epsilon)$.
Abstract（参考訳）: モデルフリー強化学習は、コントローラのパラメータ空間を直接探索することで未知の力学系の最適制御動作を見つけようとする。これらのアプローチの収束挙動と統計特性は、基礎となる最適化問題の非凸性と正確な勾配計算の欠如のためによく理解されていない。本稿では,未知状態空間パラメータを持つ連続時間系の標準無限ホライゾン線形二次レギュレータ問題に着目し,その性能と効率を非神秘化する。安定化フィードバックゲインの集合上で勾配-流れのダイナミクスを支配できる常微分方程式(ODE)に対して指数的安定性を確立し、対応するODEの前方オイラー離散化から生じる勾配降下法に対して同様の結果が成り立つことを示す。また, 2点勾配推定を用いたランダム探索法の収束率とサンプル複雑性に関する理論的境界を与える。モデルフリー設定において$\epsilon$-accuracyを達成するために必要なシミュレーション時間と関数評価の総数はともに$\log \, (1/\epsilon)$であることを示す。

関連論文リスト

Self-Supervised Coarsening of Unstructured Grid with Automatic Differentiation [55.88862563823878]
本研究では,微分可能物理の概念に基づいて,非構造格子を階層化するアルゴリズムを提案する。多孔質媒質中のわずかに圧縮可能な流体流を制御した線形方程式と波動方程式の2つのPDE上でのアルゴリズムの性能を示す。その結果,検討したシナリオでは,関心点におけるモデル変数のダイナミクスを保ちながら,格子点数を最大10倍に削減した。
論文参考訳（メタデータ） (2025-07-24T11:02:13Z)
Controlling the Flow: Stability and Convergence for Stochastic Gradient Descent with Decaying Regularization [0.40964539027092917]
我々は、余分な有界性仮定を伴わない元の問題の最小ノルム解に対して、reg-SGDの強い収束性を証明する。分析の結果,Tikhonov正則化がSGDの流れを制御し,安定した学習力学が得られることがわかった。
論文参考訳（メタデータ） (2025-05-16T16:53:49Z)
Sample Complexity of Linear Quadratic Regulator Without Initial Stability [11.98212766542468]
ReINFORCEに触発されて、未知のパラメータを持つ線形二次レギュレータ(LQR)問題に対して、新しい回帰水平アルゴリズムを導入する。従来の手法とは異なり、本アルゴリズムはサンプルの複雑さの順序を同じに保ちながら、2点勾配推定に依存することを回避している。
論文参考訳（メタデータ） (2025-02-20T02:44:25Z)
Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。 2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文参考訳（メタデータ） (2024-09-24T04:39:47Z)
Harmonic Path Integral Diffusion [0.4527270266697462]
本稿では,連続多変量確率分布から抽出する新しい手法を提案する。本手法では,状態空間の起点を中心とするデルタ関数を$t=0$とし,ターゲット分布に$t=1$で変換する。これらのアルゴリズムは他のサンプリング手法、特にシミュレートおよびパス積分サンプリングと対比し、解析制御、精度、計算効率の点でそれらの利点を強調した。
論文参考訳（メタデータ） (2024-09-23T16:20:21Z)
Efficient Sampling for Data-Driven Frequency Stability Constraint via Forward-Mode Automatic Differentiation [5.603382086370097]
本稿では,フォワードモード自動微分による勾配データ生成手法を提案する。この方法では、元の力学系は、元の状態の感度のダイナミクスを表す新しい状態で拡張される。提案アルゴリズムは, 非線形微分法と有限差分法と比較して, サンプリングアルゴリズムの優れた性能を示す。
論文参考訳（メタデータ） (2024-07-21T03:50:11Z)
Enhancing Low-Order Discontinuous Galerkin Methods with Neural Ordinary Differential Equations for Compressible Navier--Stokes Equations [0.1578515540930834]
圧縮可能なNavier-Stokes方程式を解くためのエンドツーエンドの微分可能なフレームワークを提案する。この統合アプローチは、微分可能不連続なガレルキン解法とニューラルネットワークのソース項を組み合わせる。提案するフレームワークの性能を2つの例で示す。
論文参考訳（メタデータ） (2023-10-29T04:26:23Z)
Hybrid algorithm simulating non-equilibrium steady states of an open quantum system [10.752869788647802]
非平衡定常状態は開量子系の研究の焦点である。これらの定常状態を探すための従来の変分アルゴリズムは、資源集約的な実装に悩まされてきた。我々は、リンドブラッド方程式の演算子-サム形式をシミュレートすることにより、非平衡定常状態の効率的な探索を行う新しい変分量子アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-13T01:57:27Z)
An Optimization-based Deep Equilibrium Model for Hyperspectral Image Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文参考訳（メタデータ） (2023-06-10T08:25:16Z)
Constrained Optimization via Exact Augmented Lagrangian and Randomized Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文参考訳（メタデータ） (2023-05-28T06:33:37Z)
A Priori Denoising Strategies for Sparse Identification of Nonlinear Dynamical Systems: A Comparative Study [68.8204255655161]
本研究では, 局所的およびグローバルな平滑化手法の性能と, 状態測定値の偏差について検討・比較する。一般に,測度データセット全体を用いたグローバルな手法は,局所点の周辺に隣接するデータサブセットを用いる局所的手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-01-29T23:31:25Z)
Breaking the Convergence Barrier: Optimization via Fixed-Time Convergent Flows [4.817429789586127]
本稿では, 固定時間安定力学系の概念に基づいて, 加速を実現するための多言語最適化フレームワークを提案する。提案手法の高速化された収束特性を,最先端の最適化アルゴリズムに対して様々な数値例で検証する。
論文参考訳（メタデータ） (2021-12-02T16:04:40Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文参考訳（メタデータ） (2020-11-14T01:27:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。