Fugu-MT 論文翻訳(概要): Batch size invariant Adam

論文の概要: Batch size invariant Adam

arxiv url: http://arxiv.org/abs/2402.18824v1
Date: Thu, 29 Feb 2024 03:16:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 16:11:56.628098
Title: Batch size invariant Adam
Title（参考訳）: バッチサイズ不変量Adam
Authors: Xi Wang, Laurence Aitchison
Abstract要約: 本稿では,大規模分散環境におけるAdamのバッチサイズ不変バージョンを提案する。 v 項の場合、標準アダムはまずマイクロバッチ勾配の平均を計算し、次に正方形となる。ここでAdamが提案したバッチサイズ不変量では、まずマイクロバッチ勾配を2乗し、次に平均とする。
参考スコア（独自算出の注目度）: 35.418372980203856
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a batch size invariant version of Adam, for use in large-scale, distributed settings, in which the mini-batch is divided into micro-batches which are distributed among worker nodes. For the v term, standard Adam first computes the average over micro-batch gradients, then squares, while in the batch size invariant Adam proposed here, we first square the micro-batch gradients, then average. Previous work (e.g. Malladi et al. 2022) used an alternative approach that involved a square-root scaling of the learning rate, but this approach requires strong assumptions to work; in particular that the gradient variance dominates the square of the expected gradient. In contrast, the approach proposed here gives batch size invariance without this assumption. We confirm that in practice our scheme gives batch size invariance in a much larger range of scenarios than the previous approach.
Abstract（参考訳）: 本稿では,ミニバッチをワーカノード間で分散するマイクロバッチに分割した大規模分散環境で使用されるadamのバッチサイズ不変バージョンを提案する。 v 項について、標準アダムはまずマイクロバッチ勾配平均を計算し、次に正方形を計算し、一方、Adam はここで提案したバッチサイズ不変量において、まずマイクロバッチ勾配平均を計算した。以前の研究(例えば、Malladi et al. 2022)では、学習率の2乗根スケーリングを含む別のアプローチが用いられたが、この手法には強い仮定が必要であり、特に勾配分散が期待される勾配の2乗を支配している。対照的に、ここで提案するアプローチは、この仮定なしでバッチサイズ不変性を与える。実際に、我々のスキームは以前の手法よりもはるかに広い範囲のシナリオでバッチサイズ不変性を与えていることを確認します。

関連論文リスト

Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful [71.96579951744897]
従来の知恵では、小さなバッチサイズは言語モデルを事前訓練し、微調整を不安定にし、モチベーションを増進させる。本研究では,バッチサイズからバッチサイズまで,小さなバッチサイズを再検討し,Adamハイパーパラメータを小さなバッチサイズにスケールするためのルールを提案する。
論文参考訳（メタデータ） (2025-07-09T17:57:36Z)
Stochastic Variational Inference with Tuneable Stochastic Annealing [1.6385815610837167]
本稿では,大小両方のデータセットに適用可能な修正変分推論(SVI)手法を提案する。我々は、SVI において、バッチサイズが大きいほど、ガウス的ノイズはより略式になるが、その分散は小さくなるという事実に動機づけられている。そこで本研究では,局所最適解を回避し,より正確な勾配を求めるためのデータ情報を得るため,より大きな分散雑音の両目標を達成するための簡単な手法を提案する。
論文参考訳（メタデータ） (2025-04-04T19:46:10Z)
Error dynamics of mini-batch gradient descent with random reshuffling for least squares regression [4.159762735751163]
最小二乗回帰に対するランダムリシャッフルによるミニバッチ勾配勾配のダイナミクスについて検討する。トレーニングと誤差は、サンプルのクロス共分散行列$Z$に依存することを示す。
論文参考訳（メタデータ） (2024-06-06T02:26:14Z)
A Negative Result on Gradient Matching for Selective Backprop [8.463693396893731]
ディープニューラルネットワークのトレーニングは、膨大な計算負荷になる。トレーニングプロセスをスピードアップする1つのアプローチはSelective Backpropである。我々は、ミニバッチ全体の平均勾配に最もよく一致する(重み付けされた)サブセットを選択することで、このアプローチを構築します。損失ベースと勾配マッチング戦略の両方が、ランダムなベースラインを一貫して上回りません。
論文参考訳（メタデータ） (2023-12-08T13:03:10Z)
Learning Distributions via Monte-Carlo Marginalization [9.131712404284876]
サンプルから抽出可能な分布を学習する新しい手法を提案する。モンテカルロ・マルギナライゼーション(MCMarg)はこの問題に対処するために提案されている。提案手法は複雑な分布を学習するための強力なツールであり、プロセス全体が微分可能である。
論文参考訳（メタデータ） (2023-08-11T19:08:06Z)
The Effect of SGD Batch Size on Autoencoder Learning: Sparsity, Sharpness, and Feature Learning [14.004531386769328]
単一ニューロンオートエンコーダを用いた場合の勾配降下(SGD)のダイナミクスについて検討する。サンプル数より小さいバッチサイズの場合、SGDは、そのランダム性にほぼ厳密で疎い、大域的な最小値を見つける。
論文参考訳（メタデータ） (2023-08-06T21:54:07Z)
Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文参考訳（メタデータ） (2023-06-16T17:59:51Z)
Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。提案手法は,画像分類における既存の手法よりも優れている。
論文参考訳（メタデータ） (2022-12-02T07:31:39Z)
Towards Practical Adam: Non-Convexity, Convergence Theory, and Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文参考訳（メタデータ） (2021-01-14T06:42:29Z)
Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文参考訳（メタデータ） (2020-11-24T09:28:53Z)
Variance-reduced Language Pretraining via a Mask Proposal Network [5.819397109258169]
自己指導型学習(英: self-supervised learning, a.k.a.)は、自然言語処理において重要である。本稿では,勾配分散低減の観点から問題に取り組む。そこで我々は,マスク提案の最適分布を近似したMAsk Network(MAPNet)を導入した。
論文参考訳（メタデータ） (2020-08-12T14:12:32Z)
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文参考訳（メタデータ） (2020-06-21T21:47:43Z)
Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。我々は、測定値の低減を行う降下ステップを適応的に選択する。これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文参考訳（メタデータ） (2020-06-02T17:52:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。