論文の概要: Some remarks on gradient dominance and LQR policy optimization
- arxiv url: http://arxiv.org/abs/2507.10452v2
- Date: Wed, 16 Jul 2025 02:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 12:30:11.772336
- Title: Some remarks on gradient dominance and LQR policy optimization
- Title(参考訳): 勾配支配とLQRポリシー最適化について
- Authors: Eduardo D. Sontag,
- Abstract要約: Polyak-Lojasiewicz Inequality (PLI) は指数収束率を確立するために用いられる。
PLI様条件は、様々な一般化されたPLI様条件の探索を動機付けている。
これらの一般化は過渡性とエラーの影響を理解するための鍵となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solutions of optimization problems, including policy optimization in reinforcement learning, typically rely upon some variant of gradient descent. There has been much recent work in the machine learning, control, and optimization communities applying the Polyak-{\L}ojasiewicz Inequality (PLI) to such problems in order to establish an exponential rate of convergence (a.k.a. ``linear convergence'' in the local-iteration language of numerical analysis) of loss functions to their minima under the gradient flow. Often, as is the case of policy iteration for the continuous-time LQR problem, this rate vanishes for large initial conditions, resulting in a mixed globally linear / locally exponential behavior. This is in sharp contrast with the discrete-time LQR problem, where there is global exponential convergence. That gap between CT and DT behaviors motivates the search for various generalized PLI-like conditions, and this talk will address that topic. Moreover, these generalizations are key to understanding the transient and asymptotic effects of errors in the estimation of the gradient, errors which might arise from adversarial attacks, wrong evaluation by an oracle, early stopping of a simulation, inaccurate and very approximate digital twins, stochastic computations (algorithm ``reproducibility''), or learning by sampling from limited data. We describe an ``input to state stability'' (ISS) analysis of this issue. The second part discusses convergence and PLI-like properties of ``linear feedforward neural networks'' in feedback control. Much of the work described here was done in collaboration with Arthur Castello B. de Oliveira, Leilei Cui, Zhong-Ping Jiang, and Milad Siami.
- Abstract(参考訳): 強化学習におけるポリシー最適化を含む最適化問題の解は通常、勾配勾配の変種に依存する。
PLI(Polyak-{\L}ojasiewicz Inequality)を適用した機械学習、制御、最適化のコミュニティでは、勾配流下での損失関数の局所解法言語における指数的な収束率(例えば「線形収束」)を確立するための研究が近年行われている。
しばしば、連続時間LQR問題に対するポリシー反復の場合と同様に、このレートは大きな初期条件で消滅し、大域的に線形あるいは局所指数的な振る舞いが混合される。
これは、大域指数収束が存在する離散時間 LQR 問題とは対照的である。
このCTとDTの挙動のギャップは、様々な一般化されたPLIのような条件の探索を動機付けており、この話はそのトピックに対処する。
さらに、これらの一般化は、勾配の推定における誤差の過渡的および漸近的効果、敵対的攻撃から生じる可能性のある誤差、オラクルによる誤った評価、シミュレーションの早期停止、不正確で非常に近似的なデジタル双対、確率計算(algorithm ``reproducibility'')、限られたデータからのサンプリングによる学習を理解するための鍵となる。
この問題の‘状態安定性に対するインプット’ (ISS) 分析について述べる。
第2部では,フィードバック制御における「線形フィードフォワードニューラルネットワーク」の収束とPLI様特性について論じる。
ここで解説された作品の多くはアーサー・カステッロ・B・デ・オリヴェイラ、レイレイ・キュイ、張平江、ミラド・シーアミと共同で行われた。
関連論文リスト
- Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Remarks on the Polyak-Lojasiewicz inequality and the convergence of gradient systems [0.3277163122167434]
この研究は、ポリアック・ロジャシエヴィチ不等式(PLI)の一般化を探求する。
この研究は、より弱い条件は、コスト関数の臨界点の集合に対する大域収束と最適性に十分である一方で、勾配流解の「顕著」は、どの不等式の不等式がどのコストを満たすかによって大きく変化することを示した。
論文 参考訳(メタデータ) (2025-03-31T00:59:56Z) - Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。
モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。
この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文 参考訳(メタデータ) (2024-08-05T14:11:51Z) - Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time [45.72323731094864]
本稿では,2層ReLULUネットワーク間における重み減衰と凸緩和の最適性ギャップについて検討する。
私たちの研究は、なぜローカルメソッドがうまく機能するのかを理解することに新たな光を当てています。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Can Decentralized Stochastic Minimax Optimization Algorithms Converge
Linearly for Finite-Sum Nonconvex-Nonconcave Problems? [56.62372517641597]
分散化されたミニマックス最適化は、幅広い機械学習に応用されているため、ここ数年で活発に研究されている。
本稿では,非コンカブ問題に対する2つの新しい分散化ミニマックス最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-24T02:19:39Z) - Convergence Rates of Two-Time-Scale Gradient Descent-Ascent Dynamics for
Solving Nonconvex Min-Max Problems [2.0305676256390934]
連立勾配降下指数アルゴリズムの連続時間変動の有限時間特性を特徴付ける。
連続時間アルゴリズムの挙動に関する結果は、離散時間アルゴリズムの収束特性を高めるために用いられる。
論文 参考訳(メタデータ) (2021-12-17T15:51:04Z) - Acceleration in Distributed Optimization Under Similarity [72.54787082152278]
集中ノードを持たないエージェントネットワーク上での分散(強い凸)最適化問題について検討する。
$varepsilon$-solutionは$tildemathcalrhoObig(sqrtfracbeta/mu (1-)log1/varepsilonbig)$通信ステップ数で達成される。
この速度は、関心のクラスに適用される分散ゴシップ-アルゴリズムの、初めて(ポリログ因子まで)より低い複雑性の通信境界と一致する。
論文 参考訳(メタデータ) (2021-10-24T04:03:00Z) - Physics-informed neural network simulation of multiphase poroelasticity
using stress-split sequential training [0.0]
本稿では、弾性ネットワークに基づく偏微分方程式(PDE)に支配される問題を解くための枠組みを提案する。
この手法は, ポロシ, バリ・シエの注入-生産問題, および2相排水問題の解法に収束する。
論文 参考訳(メタデータ) (2021-10-06T20:09:09Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。