Fugu-MT 論文翻訳(概要): On Convergence of Incremental Gradient for Non-Convex Smooth Functions

論文の概要: On Convergence of Incremental Gradient for Non-Convex Smooth Functions

arxiv url: http://arxiv.org/abs/2305.19259v4
Date: Mon, 12 Feb 2024 12:51:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 00:52:42.602475
Title: On Convergence of Incremental Gradient for Non-Convex Smooth Functions
Title（参考訳）: 非凸滑らか関数に対する漸進勾配の収束について
Authors: Anastasia Koloskova, Nikita Doikov, Sebastian U. Stich, Martin Jaggi
Abstract要約: 機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
参考スコア（独自算出の注目度）: 63.51187646914962
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In machine learning and neural network optimization, algorithms like incremental gradient, and shuffle SGD are popular due to minimizing the number of cache misses and good practical convergence behavior. However, their optimization properties in theory, especially for non-convex smooth functions, remain incompletely explored. This paper delves into the convergence properties of SGD algorithms with arbitrary data ordering, within a broad framework for non-convex smooth functions. Our findings show enhanced convergence guarantees for incremental gradient and single shuffle SGD. Particularly if $n$ is the training set size, we improve $n$ times the optimization term of convergence guarantee to reach accuracy $\varepsilon$ from $O(n / \varepsilon)$ to $O(1 / \varepsilon)$.
Abstract（参考訳）: 機械学習とニューラルネットワーク最適化では、キャッシュミスの数を最小限に抑え、実用的な収束挙動を良くするため、インクリメンタル勾配やシャッフルSGDのようなアルゴリズムが人気である。しかし、理論におけるそれらの最適化特性、特に非凸滑らかな函数は、いまだに不完全である。本稿では, 任意のデータ順序付けによるSGDアルゴリズムの収束特性を, 非凸スムーズ関数の広い枠組み内で検討する。以上の結果より,インクリメンタル勾配と単一シャッフルSGDのコンバージェンス保証が向上した。特に$n$がトレーニングセットのサイズであれば、コンバージェンス保証の最適化期間を$n$倍にし、精度を$o(n / \varepsilon)$から$o(1 / \varepsilon)$にする。

関連論文リスト

Stochastic Momentum Methods for Non-smooth Non-Convex Finite-Sum Coupled Compositional Optimization [64.99236464953032]
我々は、(ほぼ)$レベルのKKTソリューションを見つけるために、$O(/epsilon)$の最先端の複雑さを新たに提案する。 O(/epsilon)$ の(ほぼ) $ レベルの KKT ソリューションを見つけるための技術的複雑さを適用することで、(ほぼ) $ レベルの KKT ソリューションを見つけるための $O(/epsilon)$ の最先端の複雑さを新たに達成する。
論文参考訳（メタデータ） (2025-06-03T06:31:59Z)
Improved Last-Iterate Convergence of Shuffling Gradient Methods for Nonsmooth Convex Optimization [21.865728815935665]
我々はRandom Reshuffle(textsfRR$) と Single Shuffle(textsfSS$) の戦略がどちらも Proximal GD よりも確実に高速であることを示す。重要な意味として、suffix 平均に対して $textsfRR$ サンプリングスキームで(ほぼ)最適収束結果を与える。
論文参考訳（メタデータ） (2025-05-29T03:53:45Z)
Demystifying the Myths and Legends of Nonconvex Convergence of SGD [17.445810977264067]
勾配勾配勾配(SGD)とその変種は、大規模最適化問題の解法の主要な仕事場である。分析として,勾配の非収束に関連する神話や伝説について考察した。
論文参考訳（メタデータ） (2023-10-19T17:58:59Z)
Gradient-free optimization of highly smooth functions: improved analysis and a new algorithm [87.22224691317766]
この研究は、目的関数が極めて滑らかであるという仮定の下で、ゼロ次ノイズオラクル情報による問題を研究する。ゼロオーダー射影勾配勾配アルゴリズムを2種類検討する。
論文参考訳（メタデータ） (2023-06-03T17:05:13Z)
Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文参考訳（メタデータ） (2023-03-02T00:57:38Z)
Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation [11.925232472331494]
非線形関数近似を用いたQラーニング問題を解くため,ガウスニュートン時間差分法(GNTD)学習法を提案する。各イテレーションにおいて、我々の手法は1つのガウスニュートン(GN)ステップを踏んで平均二乗ベルマン誤差(MSBE)の変種を最適化する。いくつかのRLベンチマークにおいて、GNTDはTD型よりも高い報酬と高速な収束を示す。
論文参考訳（メタデータ） (2023-02-25T14:14:01Z)
Optimal Stochastic Non-smooth Non-convex Optimization through Online-to-Non-convex Conversion [56.92236659731376]
本稿では,新しい解析手法を用いて,未知の非平滑な目的を最適化するアルゴリズムを提案する。決定論的二階スムーズな目的のために、先進的な楽観的なオンライン学習技術を適用することで、新しい$O(delta0.5)All$が最適または最もよく知られた結果の回復を可能にする。
論文参考訳（メタデータ） (2023-02-07T22:09:20Z)
Stochastic Zeroth order Descent with Structured Directions [10.604744518360464]
我々は, 有限差分法であるStructured Zeroth Order Descent (SSZD)を導入・解析し, 集合 $lleq d 方向の勾配を近似し, $d は周囲空間の次元である。凸凸に対して、すべての$c1/2$に対して$O( (d/l) k-c1/2$)$ 上の関数の収束はほぼ確実に証明する。
論文参考訳（メタデータ） (2022-06-10T14:00:06Z)
Adaptive extra-gradient methods for min-max optimization and games [35.02879452114223]
本稿では,初期の反復で観測された勾配データの幾何を自動的に活用する,minmax最適化アルゴリズムの新たなファミリーを提案する。この適応機構により,提案手法は問題がスムーズかどうかを自動的に検出する。滑らかな問題における$mathcalO (1/varepsilon)$反復と、非滑らかな問題における$mathcalO (1/varepsilon)$反復に収束する。
論文参考訳（メタデータ） (2020-10-22T22:54:54Z)
On the Almost Sure Convergence of Stochastic Gradient Descent in Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文参考訳（メタデータ） (2020-06-19T14:11:26Z)
Gradient Free Minimax Optimization: Variance Reduction and Faster Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文参考訳（メタデータ） (2020-06-16T17:55:46Z)
Complexity of Finding Stationary Points of Nonsmooth Nonconvex Functions [84.49087114959872]
非滑らかで非滑らかな関数の定常点を見つけるための最初の非漸近解析を提供する。特に、アダマール半微分可能函数(おそらく非滑らか関数の最大のクラス)について研究する。
論文参考訳（メタデータ） (2020-02-10T23:23:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。