論文の概要: The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2004.13146v1
- Date: Mon, 27 Apr 2020 20:06:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 06:16:07.746700
- Title: The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent
- Title(参考訳): 確率的勾配降下における勾配の分散に及ぼすミニバッチサイズの影響
- Authors: Xin Qian, Diego Klabjan
- Abstract要約: ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
- 参考スコア(独自算出の注目度): 28.148743710421932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mini-batch stochastic gradient descent (SGD) algorithm is widely used in
training machine learning models, in particular deep learning models. We study
SGD dynamics under linear regression and two-layer linear networks, with an
easy extension to deeper linear networks, by focusing on the variance of the
gradients, which is the first study of this nature. In the linear regression
case, we show that in each iteration the norm of the gradient is a decreasing
function of the mini-batch size $b$ and thus the variance of the stochastic
gradient estimator is a decreasing function of $b$. For deep neural networks
with $L_2$ loss we show that the variance of the gradient is a polynomial in
$1/b$. The results back the important intuition that smaller batch sizes yield
lower loss function values which is a common believe among the researchers. The
proof techniques exhibit a relationship between stochastic gradient estimators
and initial weights, which is useful for further research on the dynamics of
SGD. We empirically provide further insights to our results on various datasets
and commonly used deep network structures.
- Abstract(参考訳): ミニバッチ確率勾配勾配(SGD)アルゴリズムは、機械学習モデル、特にディープラーニングモデルのトレーニングに広く用いられている。
本研究は,線形回帰と2層線形ネットワークによるsgdダイナミクスについて,勾配の分散に着目し,より深い線形ネットワークへ容易に拡張できる,この性質の最初の研究である。
線形回帰の場合、各反復において勾配のノルムがミニバッチサイズ$b$の減少関数であり、従って確率勾配推定器の分散は$b$の減少関数であることを示す。
L_2$損失の深いニューラルネットワークの場合、勾配の分散は1/b$の多項式であることが示される。
その結果、より小さいバッチサイズで損失関数の値が小さくなるという重要な直感が、研究者の間でよく信じられている。
この証明技術は確率的勾配推定器と初期重み付けの関係を示しており、sgdのダイナミクスのさらなる研究に有用である。
さまざまなデータセットや一般的に使用されているディープネットワーク構造について、実験的に結果にさらなる洞察を提供する。
関連論文リスト
- Discrete error dynamics of mini-batch gradient descent for least squares regression [4.159762735751163]
置換のないサンプリングにおいて,少なくとも正方形に対するミニバッチ勾配勾配のダイナミクスについて検討した。
また、連続時間勾配流解析では検出できない離散化効果について検討し、最小バッチ勾配降下がステップサイズ依存解に収束することを示す。
論文 参考訳(メタデータ) (2024-06-06T02:26:14Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Training trajectories, mini-batch losses and the curious role of the
learning rate [13.848916053916618]
検証された勾配勾配勾配は、ディープラーニングのほぼすべての応用において、基本的な役割を担っていることを示す。
本稿では,ミニバッチの勾配と全バッチの関係を解析する簡単なモデルと幾何学的解釈を提案する。
特に、非常に低い損失値は、十分な学習率で1段階の降下に到達することができる。
論文 参考訳(メタデータ) (2023-01-05T21:58:46Z) - Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。
In-Training Representation Alignment (ITRA) を提案する。
また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文 参考訳(メタデータ) (2022-11-23T22:23:22Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - R2-AD2: Detecting Anomalies by Analysing the Raw Gradient [0.6299766708197883]
本稿では,R2-AD2と呼ばれる新しい半教師付き異常検出手法を提案する。
複数の訓練段階における勾配の時間分布を解析することにより,点異常を確実に検出する。
R2-AD2は純粋にデータ駆動方式で動作するため、異常検出の様々な重要なユースケースに容易に適用できる。
論文 参考訳(メタデータ) (2022-06-21T11:13:33Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。