論文の概要: Stochastic Anderson Mixing for Nonconvex Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2110.01543v1
- Date: Mon, 4 Oct 2021 16:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:10:31.682487
- Title: Stochastic Anderson Mixing for Nonconvex Stochastic Optimization
- Title(参考訳): 非凸確率最適化のための確率アンダーソン混合
- Authors: Fuchao Wei, Chenglong Bao, Yang Liu
- Abstract要約: Anderson Mixing (AM) は固定点反復の加速法である。
非適応最適化問題の解法として,Mixing (SAM) 方式を提案する。
- 参考スコア(独自算出の注目度): 12.65903351047816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anderson mixing (AM) is an acceleration method for fixed-point iterations.
Despite its success and wide usage in scientific computing, the convergence
theory of AM remains unclear, and its applications to machine learning problems
are not well explored. In this paper, by introducing damped projection and
adaptive regularization to classical AM, we propose a Stochastic Anderson
Mixing (SAM) scheme to solve nonconvex stochastic optimization problems. Under
mild assumptions, we establish the convergence theory of SAM, including the
almost sure convergence to stationary points and the worst-case iteration
complexity. Moreover, the complexity bound can be improved when randomly
choosing an iterate as the output. To further accelerate the convergence, we
incorporate a variance reduction technique into the proposed SAM. We also
propose a preconditioned mixing strategy for SAM which can empirically achieve
faster convergence or better generalization ability. Finally, we apply the SAM
method to train various neural networks including the vanilla CNN, ResNets,
WideResNet, ResNeXt, DenseNet and RNN. Experimental results on image
classification and language model demonstrate the advantages of our method.
- Abstract(参考訳): Anderson Mixing (AM) は固定点反復の加速法である。
科学計算での成功と幅広い利用にもかかわらず、amの収束理論はいまだ不明であり、機械学習問題への応用は十分に検討されていない。
本稿では,従来のAMに減衰投影と適応正規化を導入することで,非凸確率最適化問題の解法として,Stochastic Anderson Mixing(SAM)方式を提案する。
軽度の仮定の下では、定常点へのほぼ確実な収束と最悪の反復複雑性を含むSAMの収束理論を確立する。
さらに、出力としてイテレートをランダムに選択すると、複雑性境界が向上する。
収束をさらに加速するため,提案したSAMに分散低減手法を組み込んだ。
また,より高速な収束やより優れた一般化能力を実証的に達成できるSAMの予条件混合戦略を提案する。
最後に、SAM法を用いて、バニラCNN、ResNets、WideResNet、ResNeXt、DenseNet、RNNなどの様々なニューラルネットワークをトレーニングする。
画像分類と言語モデルの実験結果から,本手法の利点が示された。
関連論文リスト
- Asymptotic Unbiased Sample Sampling to Speed Up Sharpness-Aware Minimization [17.670203551488218]
シャープネス認識最小化(AUSAM)を加速する漸近的アンバイアスサンプリングを提案する。
AUSAMはモデルの一般化能力を維持しながら、計算効率を大幅に向上させる。
プラグアンドプレイでアーキテクチャに依存しない手法として、我々のアプローチはSAMを様々なタスクやネットワークで継続的に加速させる。
論文 参考訳(メタデータ) (2024-06-12T08:47:44Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Faster Stochastic Variance Reduction Methods for Compositional MiniMax
Optimization [50.10952609321302]
合成ミニマックス最適化は、さまざまな機械学習領域において重要な課題である。
構成最小最適化の現在の方法は、最適以下の複雑さや、大きなバッチサイズに大きく依存することによって悩まされている。
本稿では,Nested STOchastic Recursive Momentum (NSTORM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T14:57:21Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Debiasing Conditional Stochastic Optimization [15.901623717313493]
本稿では,ポートフォリオ選択や強化学習,堅牢な学習など,さまざまな応用をカバーする条件因果最適化(CSO)問題について検討する。
有限変量変量CSO問題に対する新しいアルゴリズムを開発し、既存の結果を大幅に改善する。
我々は,本手法が他の最適化問題と同様の課題に対処するための有用なツールとなる可能性があると考えている。
論文 参考訳(メタデータ) (2023-04-20T19:19:55Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - Rényi Divergence Deep Mutual Learning [3.682680183777648]
本稿では,Deep Learning Mutual (DML) を,単純かつ効果的な計算パラダイムとして再考する。
より柔軟で限定的なKL発散の代わりにR'enyi発散を提案する。
我々の経験的結果は、DMLとR'enyiの発散を併用した利点を示し、モデル一般化のさらなる改善につながった。
論文 参考訳(メタデータ) (2022-09-13T04:58:35Z) - Improving the Sample-Complexity of Deep Classification Networks with
Invariant Integration [77.99182201815763]
変換によるクラス内分散に関する事前知識を活用することは、ディープニューラルネットワークのサンプル複雑性を改善するための強力な方法である。
そこで本研究では,アプリケーションの複雑な問題に対処するために,プルーニング法に基づく新しい単項選択アルゴリズムを提案する。
本稿では,Rotated-MNIST,SVHN,CIFAR-10データセットにおけるサンプルの複雑さの改善について述べる。
論文 参考訳(メタデータ) (2022-02-08T16:16:11Z) - Geom-SPIDER-EM: Faster Variance Reduced Stochastic Expectation
Maximization for Nonconvex Finite-Sum Optimization [21.81837334970773]
本稿では,予測最大化(EM)アルゴリズムへのパス付き微分エスティマの拡張を提案する。
SPIDER-EM-IDERと同じ状態アート境界をサポートし,その結果を得た。
論文 参考訳(メタデータ) (2020-11-24T21:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。