論文の概要: DIVEBATCH: Accelerating Model Training Through Gradient-Diversity Aware Batch Size Adaptation
- arxiv url: http://arxiv.org/abs/2509.16173v1
- Date: Fri, 19 Sep 2025 17:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.256577
- Title: DIVEBATCH: Accelerating Model Training Through Gradient-Diversity Aware Batch Size Adaptation
- Title(参考訳): DIVEBATCH: 勾配多様性を考慮したバッチサイズ適応によるモデルトレーニングの高速化
- Authors: Yuen Chen, Yian Wang, Hari Sundaram,
- Abstract要約: 本研究の目的は、大規模深層ニューラルネットワークモデルのトレーニングが計算コストが高くなるため、機械学習モデルのトレーニングを加速することである。
本稿では,バッチサイズを動的に調整する適応型バッチサイズSGDアルゴリズムDiveBatchを提案する。
DiveBatchは標準のSGDやAdaBatch(1.06 -- 5.0x)よりもはるかに高速に収束し、性能のトレードオフもわずかである。
- 参考スコア(独自算出の注目度): 9.66951438381542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of this paper is to accelerate the training of machine learning models, a critical challenge since the training of large-scale deep neural models can be computationally expensive. Stochastic gradient descent (SGD) and its variants are widely used to train deep neural networks. In contrast to traditional approaches that focus on tuning the learning rate, we propose a novel adaptive batch size SGD algorithm, DiveBatch, that dynamically adjusts the batch size. Adapting the batch size is challenging: using large batch sizes is more efficient due to parallel computation, but small-batch training often converges in fewer epochs and generalizes better. To address this challenge, we introduce a data-driven adaptation based on gradient diversity, enabling DiveBatch to maintain the generalization performance of small-batch training while improving convergence speed and computational efficiency. Gradient diversity has a strong theoretical justification: it emerges from the convergence analysis of SGD. Evaluations of DiveBatch on synthetic and CiFar-10, CiFar-100, and Tiny-ImageNet demonstrate that DiveBatch converges significantly faster than standard SGD and AdaBatch (1.06 -- 5.0x), with a slight trade-off in performance.
- Abstract(参考訳): 本研究の目的は、大規模深層ニューラルネットワークモデルのトレーニングが計算コストが高くなるため、機械学習モデルのトレーニングを加速することである。
確率勾配降下(SGD)とその変種はディープニューラルネットワークの訓練に広く用いられている。
学習率の調整に重点を置く従来の手法とは対照的に,バッチサイズを動的に調整する適応型バッチサイズSGDアルゴリズムDiveBatchを提案する。
バッチサイズへの適応は難しい: 並列計算のため、大きなバッチサイズを使用する方が効率的だが、小さなバッチトレーニングはエポックを減らし、より一般化することが多い。
この課題に対処するために、勾配の多様性に基づくデータ駆動型適応を導入し、DiveBatchは収束速度と計算効率を改善しつつ、小バッチトレーニングの一般化性能を維持できる。
グラディエント多様性は、SGDの収束解析から現れる、強力な理論的正当化を持つ。
合成およびCiFar-10、CiFar-100、Tiny-ImageNetにおけるDiveBatchの評価は、DiveBatchが標準のSGDやAdaBatch(1.06 -- 5.0x)よりもはるかに高速に収束し、性能のトレードオフがあることを示している。
関連論文リスト
- AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods [17.043034606088234]
本稿では,AdAdaGradのスカラー変種AdAdaGradNormについて紹介する。
また,画像分類実験を行い,提案手法のメリットを強調した。
論文 参考訳(メタデータ) (2024-02-17T07:49:50Z) - Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [134.83964935755964]
ディープラーニングでは、異なる種類のディープネットワークは典型的に異なる補間を必要とし、複数のトライアル後に選択する必要がある。
本稿では,この問題を解消し,モデルトレーニング速度を継続的に改善するために,ADAtive Nesterov運動量変換器を提案する。
論文 参考訳(メタデータ) (2022-08-13T16:04:39Z) - ScaLA: Accelerating Adaptation of Pre-Trained Transformer-Based Language
Models via Efficient Large-Batch Adversarial Noise [20.779167087445995]
事前訓練されたトランスフォーマーベースの言語モデルは、多くの自然言語理解タスクにおいて劇的に改善されている。
ScaLAは変圧器ネットワークの高速化のための,新規かつ効率的な手法である。
実験の結果、ScaLAはBERTベースのRoBERTa-large上でGLLAのベースライン上で2.7-UE-9.8$times$アダプティブ・スピードアップを達成した。
論文 参考訳(メタデータ) (2022-01-29T01:47:01Z) - Stochastic Normalized Gradient Descent with Momentum for Large-Batch Training [9.964630991617764]
勾配降下(SGD)とその変種は機械学習における支配的最適化手法である。
本稿では,大規模バッチ学習のための運動量付き正規化勾配降下法(SNGM)を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:34:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging [48.99717153937717]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。