論文の概要: Batch size invariant Adam
- arxiv url: http://arxiv.org/abs/2402.18824v1
- Date: Thu, 29 Feb 2024 03:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:11:56.628098
- Title: Batch size invariant Adam
- Title(参考訳): バッチサイズ不変量Adam
- Authors: Xi Wang, Laurence Aitchison
- Abstract要約: 本稿では,大規模分散環境におけるAdamのバッチサイズ不変バージョンを提案する。
v 項の場合、標準アダムはまずマイクロバッチ勾配の平均を計算し、次に正方形となる。
ここでAdamが提案したバッチサイズ不変量では、まずマイクロバッチ勾配を2乗し、次に平均とする。
- 参考スコア(独自算出の注目度): 35.418372980203856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a batch size invariant version of Adam, for use in large-scale,
distributed settings, in which the mini-batch is divided into micro-batches
which are distributed among worker nodes. For the v term, standard Adam first
computes the average over micro-batch gradients, then squares, while in the
batch size invariant Adam proposed here, we first square the micro-batch
gradients, then average. Previous work (e.g. Malladi et al. 2022) used an
alternative approach that involved a square-root scaling of the learning rate,
but this approach requires strong assumptions to work; in particular that the
gradient variance dominates the square of the expected gradient. In contrast,
the approach proposed here gives batch size invariance without this assumption.
We confirm that in practice our scheme gives batch size invariance in a much
larger range of scenarios than the previous approach.
- Abstract(参考訳): 本稿では,ミニバッチをワーカノード間で分散するマイクロバッチに分割した大規模分散環境で使用されるadamのバッチサイズ不変バージョンを提案する。
v 項について、標準アダムはまずマイクロバッチ勾配平均を計算し、次に正方形を計算し、一方、Adam はここで提案したバッチサイズ不変量において、まずマイクロバッチ勾配平均を計算した。
以前の研究(例えば、Malladi et al. 2022)では、学習率の2乗根スケーリングを含む別のアプローチが用いられたが、この手法には強い仮定が必要であり、特に勾配分散が期待される勾配の2乗を支配している。
対照的に、ここで提案するアプローチは、この仮定なしでバッチサイズ不変性を与える。
実際に、我々のスキームは以前の手法よりもはるかに広い範囲のシナリオでバッチサイズ不変性を与えていることを確認します。
関連論文リスト
- A Negative Result on Gradient Matching for Selective Backprop [8.463693396893731]
ディープニューラルネットワークのトレーニングは、膨大な計算負荷になる。
トレーニングプロセスをスピードアップする1つのアプローチはSelective Backpropである。
我々は、ミニバッチ全体の平均勾配に最もよく一致する(重み付けされた)サブセットを選択することで、このアプローチを構築します。
損失ベースと勾配マッチング戦略の両方が、ランダムなベースラインを一貫して上回りません。
論文 参考訳(メタデータ) (2023-12-08T13:03:10Z) - Learning Distributions via Monte-Carlo Marginalization [9.131712404284876]
サンプルから抽出可能な分布を学習する新しい手法を提案する。
モンテカルロ・マルギナライゼーション(MCMarg)はこの問題に対処するために提案されている。
提案手法は複雑な分布を学習するための強力なツールであり、プロセス全体が微分可能である。
論文 参考訳(メタデータ) (2023-08-11T19:08:06Z) - The Effect of SGD Batch Size on Autoencoder Learning: Sparsity,
Sharpness, and Feature Learning [14.004531386769328]
単一ニューロンオートエンコーダを用いた場合の勾配降下(SGD)のダイナミクスについて検討する。
サンプル数より小さいバッチサイズの場合、SGDは、そのランダム性にほぼ厳密で疎い、大域的な最小値を見つける。
論文 参考訳(メタデータ) (2023-08-06T21:54:07Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - Variance-reduced Language Pretraining via a Mask Proposal Network [5.819397109258169]
自己指導型学習(英: self-supervised learning, a.k.a.)は、自然言語処理において重要である。
本稿では,勾配分散低減の観点から問題に取り組む。
そこで我々は,マスク提案の最適分布を近似したMAsk Network(MAPNet)を導入した。
論文 参考訳(メタデータ) (2020-08-12T14:12:32Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。