論文の概要: A view of mini-batch SGD via generating functions: conditions of
convergence, phase transitions, benefit from negative momenta
- arxiv url: http://arxiv.org/abs/2206.11124v1
- Date: Wed, 22 Jun 2022 14:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 14:45:45.906293
- Title: A view of mini-batch SGD via generating functions: conditions of
convergence, phase transitions, benefit from negative momenta
- Title(参考訳): 生成関数によるミニバッチsgdの展望:収束条件、相転移、負のモーメントによる利益
- Authors: Maksim Velikanov, Denis Kuznedelev, Dmitry Yarotsky
- Abstract要約: 運動量を持つミニバッチSGDは、大きな予測モデルを学ぶための基本的なアルゴリズムである。
そこで我々は,線形モデルに対する最小バッチSGDを,異なるモータとバッチサイズで解析する新しい分析フレームワークを開発した。
- 参考スコア(独自算出の注目度): 14.857119814202754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mini-batch SGD with momentum is a fundamental algorithm for learning large
predictive models. In this paper we develop a new analytic framework to analyze
mini-batch SGD for linear models at different momenta and sizes of batches. Our
key idea is to describe the loss value sequence in terms of its generating
function, which can be written in a compact form assuming a diagonal
approximation for the second moments of model weights. By analyzing this
generating function, we deduce various conclusions on the convergence
conditions, phase structure of the model, and optimal learning settings. As a
few examples, we show that 1) the optimization trajectory can generally switch
from the "signal-dominated" to the "noise-dominated" phase, at a time scale
that can be predicted analytically; 2) in the "signal-dominated" (but not the
"noise-dominated") phase it is favorable to choose a large effective learning
rate, however its value must be limited for any finite batch size to avoid
divergence; 3) optimal convergence rate can be achieved at a negative momentum.
We verify our theoretical predictions by extensive experiments with MNIST and
synthetic problems, and find a good quantitative agreement.
- Abstract(参考訳): 運動量を持つミニバッチSGDは、大きな予測モデルを学ぶための基本的なアルゴリズムである。
本稿では,異なるモータおよびバッチサイズでの線形モデルに対するミニバッチSGDを解析するための新しい分析フレームワークを開発する。
我々のキーとなる考え方は、モデル重みの第二モーメントに対する対角近似を仮定するコンパクトな形式で記述できる、その生成関数の観点から損失値列を記述することである。
この生成関数を解析することにより、収束条件、モデルの位相構造、最適学習設定に関する様々な結論を導出する。
いくつか例を挙げると、
1)最適化軌道は一般的に,解析的に予測可能な時間スケールにおいて,「信号支配」から「雑音支配」フェーズに切り替えることができる。
2)「信号支配」(ただし「雑音支配」ではない)段階では、大きな有効学習率を選択するのが好ましいが、発散を避けるために、その値は任意の有限バッチサイズに制限されなければならない。
3) 最適収束速度は負の運動量で達成できる。
我々は、MNISTと合成問題による広範な実験により理論予測を検証し、良好な量的一致を見いだす。
関連論文リスト
- Flow matching achieves almost minimax optimal convergence [50.38891696297888]
フローマッチング (FM) は, シミュレーションのない生成モデルとして注目されている。
本稿では,大試料径のFMの収束特性を$p$-Wasserstein 距離で論じる。
我々は、FMが1leq p leq 2$でほぼ最小の収束率を達成できることを確立し、FMが拡散モデルに匹敵する収束率に達するという最初の理論的証拠を示す。
論文 参考訳(メタデータ) (2024-05-31T14:54:51Z) - Max-affine regression via first-order methods [7.12511675782289]
最大アフィンモデルは信号処理と統計学の応用においてユビキタスに現れる。
最大アフィン回帰に対する勾配降下(GD)とミニバッチ勾配降下(SGD)の非漸近収束解析を行った。
論文 参考訳(メタデータ) (2023-08-15T23:46:44Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Sharper Analysis for Minibatch Stochastic Proximal Point Methods:
Stability, Smoothness, and Deviation [41.082982732100696]
我々は,凸複合リスク最小化問題の解法として,近位点法(M-SPP)のミニバッチ変種について検討した。
ミニバッチサイズが$n$で二次数が$T$のM-SPPは、予想外収束の速さを楽しむことを示す。
小さい$n$-large-$T$設定では、この結果はSPP型アプローチの最もよく知られた結果を大幅に改善する。
論文 参考訳(メタデータ) (2023-01-09T00:13:34Z) - Structured Optimal Variational Inference for Dynamic Latent Space Models [16.531262817315696]
動的ネットワークの潜在空間モデルについて検討し、その目的は、ペアの内積と潜在位置のインターセプトを推定することである。
後部推論と計算スケーラビリティのバランスをとるために、構造的平均場変動推論フレームワークを検討する。
論文 参考訳(メタデータ) (2022-09-29T22:10:42Z) - Instability and Local Minima in GAN Training with Kernel Discriminators [20.362912591032636]
GAN(Generative Adversarial Networks)は、複雑なデータの生成モデリングに広く使われているツールである。
実験的な成功にもかかわらず、ジェネレータと判別器のmin-max最適化のため、GANの訓練は十分には理解されていない。
本稿では、真のサンプルと生成されたサンプルが離散有限集合であり、判別器がカーネルベースである場合に、これらの関節力学を解析する。
論文 参考訳(メタデータ) (2022-08-21T18:03:06Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal [70.15267479220691]
モデル強化学習のサンプル複雑性を,生成的分散自由モデルを用いて検討・解析する。
我々の分析は、$varepsilon$が十分小さい場合、$varepsilon$-optimal Policyを見つけるのが、ほぼ最小の最適化であることを示している。
論文 参考訳(メタデータ) (2022-05-27T19:39:24Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。