論文の概要: Stagewise Enlargement of Batch Size for SGD-based Learning
- arxiv url: http://arxiv.org/abs/2002.11601v2
- Date: Thu, 27 Feb 2020 03:13:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 14:25:42.241666
- Title: Stagewise Enlargement of Batch Size for SGD-based Learning
- Title(参考訳): SGD学習におけるバッチサイズの段階的拡大
- Authors: Shen-Yi Zhao, Yin-Peng Xie, and Wu-Jun Li
- Abstract要約: 既存の研究では、バッチサイズが勾配降下(SGD)に基づく学習の性能に深刻な影響を与えることが示されている。
SGDの適切なバッチサイズを設定するために,アンダーラインバッチアンダーラインライズ(mboxSEBS)を段階的にアンダーライン展開する手法を提案する。
- 参考スコア(独自算出の注目度): 20.212176652894495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing research shows that the batch size can seriously affect the
performance of stochastic gradient descent~(SGD) based learning, including
training speed and generalization ability. A larger batch size typically
results in less parameter updates. In distributed training, a larger batch size
also results in less frequent communication. However, a larger batch size can
make a generalization gap more easily. Hence, how to set a proper batch size
for SGD has recently attracted much attention. Although some methods about
setting batch size have been proposed, the batch size problem has still not
been well solved. In this paper, we first provide theory to show that a proper
batch size is related to the gap between initialization and optimum of the
model parameter. Then based on this theory, we propose a novel method, called
\underline{s}tagewise \underline{e}nlargement of \underline{b}atch
\underline{s}ize~(\mbox{SEBS}), to set proper batch size for SGD. More
specifically, \mbox{SEBS} adopts a multi-stage scheme, and enlarges the batch
size geometrically by stage. We theoretically prove that, compared to classical
stagewise SGD which decreases learning rate by stage, \mbox{SEBS} can reduce
the number of parameter updates without increasing generalization error. SEBS
is suitable for \mbox{SGD}, momentum \mbox{SGD} and AdaGrad. Empirical results
on real data successfully verify the theories of \mbox{SEBS}. Furthermore,
empirical results also show that SEBS can outperform other baselines.
- Abstract(参考訳): 既存の研究では、バッチサイズが確率勾配降下(SGD)に基づく学習のパフォーマンスに深刻な影響を与えることが示されている。
バッチサイズが大きくなると、通常はパラメータの更新が少なくなる。
分散トレーニングでは、より大きなバッチサイズが通信頻度を低下させる。
しかし、より大きなバッチサイズは、一般化のギャップをより容易にする。
したがって、sgdの適切なバッチサイズを設定する方法が最近注目を集めている。
バッチサイズを設定する方法が提案されているが、バッチサイズの問題はまだ十分に解決されていない。
本稿では,まず,適切なバッチサイズがモデルパラメータの初期化と最適化の間のギャップに関係していることを示す理論を提案する。
次に、この理論に基づき、sgd の適切なバッチサイズを設定するための新しい方法である \underline{s}tagewise \underline{e}nlargement of \underline{b}atch \underline{s}ize~(\mbox{sebs})を提案する。
より具体的には、 \mbox{SEBS} はマルチステージスキームを採用し、バッチサイズをステージごとに幾何的に拡大する。
理論的には,学習速度を段階的に低下させる古典的な段階的SGDと比較して,一般化誤差を増大させることなくパラメータ更新数を減少させることができる。
SEBS は \mbox{SGD} 、運動量 \mbox{SGD} および AdaGrad に適している。
実データに関する実証結果は、mbox{SEBS}の理論の検証に成功している。
さらに,SEBSが他のベースラインより優れていることを示す実験結果も得られた。
関連論文リスト
- ARB-LLM: Alternating Refined Binarizations for Large Language Models [82.24826360906341]
ARB-LLMは、大規模言語モデル(LLM)に適した新しい1ビット後トレーニング量子化(PTQ)技術である。
ARB-LLM$_textRC$は同じサイズのFP16モデルを超えるのは初めてです。
論文 参考訳(メタデータ) (2024-10-04T03:50:10Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Provably Efficient High-Dimensional Bandit Learning with Batched
Feedbacks [93.00280593719513]
本稿では,オンラインインタラクションのT$ステップをバッチに分割したバッチフィードバックによる高次元マルチアームコンテキストバンドレットについて検討する。
具体的には、各バッチは以前のバッチに依存するポリシーに従ってデータを収集し、その報酬はバッチの最後にのみ明らかにする。
我々のアルゴリズムは,$mathcalO( log T)$ バッチで完全に逐次的に設定されたものに匹敵する後悔の限界を達成している。
論文 参考訳(メタデータ) (2023-11-22T06:06:54Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Contrastive Weight Regularization for Large Minibatch SGD [8.927483136015283]
我々は新しい正規化手法、すなわち特異正規化(DReg)を導入する。
DRegはディープネットワークの特定のレイヤを複製し、両方のレイヤのパラメータを多様にすることを奨励する。
我々は,大バッチSGDを用いたDRegによるニューラルネットワークの最適化が,収束の著しい向上と性能向上を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-11-17T22:07:38Z) - Double Forward Propagation for Memorized Batch Normalization [68.34268180871416]
バッチ正規化(BN)は、ディープニューラルネットワーク(DNN)の設計における標準コンポーネントである。
より正確でロバストな統計値を得るために,複数の最近のバッチを考慮に入れた記憶型バッチ正規化(MBN)を提案する。
関連する手法と比較して、提案したMBNはトレーニングと推論の両方において一貫した振る舞いを示す。
論文 参考訳(メタデータ) (2020-10-10T08:48:41Z) - Stochastic Normalized Gradient Descent with Momentum for Large-Batch Training [9.964630991617764]
勾配降下(SGD)とその変種は機械学習における支配的最適化手法である。
本稿では,大規模バッチ学習のための運動量付き正規化勾配降下法(SNGM)を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:34:43Z) - On the Generalization Benefit of Noise in Stochastic Gradient Descent [34.127525925676416]
ディープニューラルネットワークにおけるバッチ勾配勾配よりも、ミニバッチ勾配勾配がより一般化できるという主張は、長年にわたって議論されてきた。
小さいバッチサイズや中程度のバッチサイズは、テストセットにおいて非常に大きなバッチよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-06-26T16:18:54Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Scaling Distributed Training with Adaptive Summation [2.6210166639679]
本稿では,従来の作業よりも早く収束するAdasum(適応和)と呼ばれる勾配を結合する新しい手法を提案する。
Adasumは実装が容易で、グラデーションを要約するのと同じくらい効率的で、オープンソースのツールキットHorovodに統合されている。
論文 参考訳(メタデータ) (2020-06-04T15:08:20Z) - Extended Batch Normalization [3.377000738091241]
バッチ正規化(BN)は、現代のディープネットワークをトレーニングするための標準技術となっている。
本稿では,拡張バッチ正規化(EBN)と呼ばれる,単純だが効果的な手法を提案する。
実験により,バッチ正規化の拡張は,バッチサイズが小さい場合のバッチ正規化の問題を軽減するとともに,バッチサイズが大きい場合のバッチ正規化に対するクローズな性能を実現する。
論文 参考訳(メタデータ) (2020-03-12T01:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。