Fugu-MT 論文翻訳(概要): Stability and Generalization for Minibatch SGD and Local SGD

論文の概要: Stability and Generalization for Minibatch SGD and Local SGD

arxiv url: http://arxiv.org/abs/2310.01139v2
Date: Mon, 30 Oct 2023 07:30:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 22:39:47.993891
Title: Stability and Generalization for Minibatch SGD and Local SGD
Title（参考訳）: ミニバッチSGDと局所SGDの安定性と一般化
Authors: Yunwen Lei, Tao Sun, Mingrui Liu
Abstract要約: ミニバッチ勾配降下(ミニバッチSGD)と局所SGDは並列最適化の2つの一般的な方法である。本研究では,ミニバッチと局所SGDの安定性と一般化解析を行い,学習性について考察した。最適リスク境界を達成するために,ミニバッチと局所SGDの両方が線形スピードアップを達成することを示す。
参考スコア（独自算出の注目度）: 46.45496260281998
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing scale of data propels the popularity of leveraging parallelism to speed up the optimization. Minibatch stochastic gradient descent (minibatch SGD) and local SGD are two popular methods for parallel optimization. The existing theoretical studies show a linear speedup of these methods with respect to the number of machines, which, however, is measured by optimization errors. As a comparison, the stability and generalization of these methods are much less studied. In this paper, we study the stability and generalization analysis of minibatch and local SGD to understand their learnability by introducing a novel expectation-variance decomposition. We incorporate training errors into the stability analysis, which shows how small training errors help generalization for overparameterized models. We show both minibatch and local SGD achieve a linear speedup to attain the optimal risk bounds.
Abstract（参考訳）: データの規模が大きくなることで、最適化のスピードアップに並列性を活用する人気が高まっている。ミニバッチ確率勾配降下(ミニバッチSGD)と局所SGDは並列最適化の2つの一般的な方法である。既存の理論的研究は、最適化誤差によって測定される機械の数に関して、これらの手法の線形高速化を示している。比較として、これらの手法の安定性と一般化はあまり研究されていない。本稿では,ミニバッチと局所SGDの安定性と一般化解析を行い,新しい予測分散分解を導入して学習可能性を理解する。トレーニングエラーを安定性解析に組み込むことで、過パラメータモデルの一般化にいかに役立つかを示す。最適リスク境界を達成するために,ミニバッチと局所SGDの両方が線形スピードアップを達成することを示す。

関連論文リスト

A Simplified Analysis of SGD for Linear Regression with Weight Averaging [64.2393952273612]
最近の研究は、定常学習率を用いた線形回帰におけるSGD最適化のためのシャープレートを提供する。簡単な線形代数ツールを用いて,2021ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグネグニグニグニグニグネグニグニグネグニ我々の研究は線形回帰の勾配勾配を非常に容易に解析し、ミニバッチと学習率のスケジューリングのさらなる分析に役立てることができると信じている。
論文参考訳（メタデータ） (2025-06-18T15:10:38Z)
Stability and Generalization for Distributed SGDA [70.97400503482353]
分散SGDAのための安定性に基づく一般化分析フレームワークを提案する。我々は, 安定性の誤差, 一般化ギャップ, 人口リスクの包括的分析を行う。理論的結果から,一般化ギャップと最適化誤差のトレードオフが明らかになった。
論文参考訳（メタデータ） (2024-11-14T11:16:32Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication [37.210933391984014]
ローカルSGDは分散学習において一般的な最適化手法であり、実際には他のアルゴリズムよりも優れていることが多い。我々は、既存の一階データ不均一性仮定の下で、局所的なSGDに対して新しい下界を提供する。また、いくつかの問題クラスに対して、高速化されたミニバッチSGDの min-max 最適性を示す。
論文参考訳（メタデータ） (2024-05-19T20:20:03Z)
SGDA with shuffling: faster convergence for nonconvex-P{\L} minimax optimization [18.668531108219415]
逐次降下勾配(SGDA)を用いた最小最適化問題に対する理論的アプローチを提案する。我々は,ポリアック・ロジャシエヴィチ(PL)幾何を用いて,非凹凸対象に対するSGDA-LLの同時的および交互的目的を解析した。我々のレートはミニバッチGDARRにも拡張され、完全な勾配勾配降下勾配 (GDA) の既知率はほとんど回復しない。最後に, 2 時間スケール GDA の包括的下限について述べる。
論文参考訳（メタデータ） (2022-10-12T08:05:41Z)
Learning from time-dependent streaming data with online stochastic algorithms [7.283533791778357]
本稿では,時間依存的,偏りのある推定値を用いたストリーミング環境での最適化について述べる。グラディエントDescent(SGD)、ミニバッチSGD、時間変化のミニバッチSGD、およびPolyak-Ruppert平均値など、いくつかの一階法を解析する。
論文参考訳（メタデータ） (2022-05-25T07:53:51Z)
Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文参考訳（メタデータ） (2021-10-20T02:25:25Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)
Minibatch vs Local SGD for Heterogeneous Distributed Learning [28.80878557506603]
この環境では、Minibatch SGDがLocal SGDの既存の分析を全て支配していると論じる。非均一な状態下で, ミニバッチSGDよりも改善された局所SGDの第一上界を示す。
論文参考訳（メタデータ） (2020-06-08T16:40:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。