論文の概要: Tula: Optimizing Time, Cost, and Generalization in Distributed Large-Batch Training
- arxiv url: http://arxiv.org/abs/2603.18112v1
- Date: Wed, 18 Mar 2026 13:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.774647
- Title: Tula: Optimizing Time, Cost, and Generalization in Distributed Large-Batch Training
- Title(参考訳): Tula: 分散型大規模バッチトレーニングにおける時間、コスト、一般化の最適化
- Authors: Sahil Tyagi, Feiyi Wang,
- Abstract要約: Tulaは、畳み込みモデルの大規模なトレーニングのために、時間、コスト、収束品質を自動的に最適化するオンラインサービスである。
Tulaは、複数のモデルで7.5-14%のエラーでトレーニング時間とコストを予測し、全体の20倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 2.19670601855638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed training increases the number of batches processed per iteration either by scaling-out (adding more nodes) or scaling-up (increasing the batch-size). However, the largest configuration does not necessarily yield the best performance. Horizontal scaling introduces additional communication overhead, while vertical scaling is constrained by computation cost and device memory limits. Thus, simply increasing the batch-size leads to diminishing returns: training time and cost decrease initially but eventually plateaus, creating a knee-point in the time/cost versus batch-size pareto curve. The optimal batch-size therefore depends on the underlying model, data and available compute resources. Large batches also suffer from worse model quality due to the well-known generalization gap. In this paper, we present Tula, an online service that automatically optimizes time, cost, and convergence quality for large-batch training of convolutional models. It combines parallel-systems modeling with statistical performance prediction to identify the optimal batch-size. Tula predicts training time and cost within 7.5-14% error across multiple models, and achieves up to 20x overall speedup and improves test accuracy by 9% on average over standard large-batch training on various vision tasks, thus successfully mitigating the generalization gap and accelerating training at the same time.
- Abstract(参考訳): 分散トレーニングは、スケーリングアウト(ノードの追加)またはスケールアップ(バッチサイズの増加)によって、イテレーション毎に処理されるバッチの数を増やす。
しかし、最大の構成が必ずしも最高のパフォーマンスをもたらすとは限らない。
水平スケーリングでは通信オーバーヘッドが増加し、垂直スケーリングは計算コストとデバイスメモリ制限によって制限される。
トレーニング時間とコストは最初は減少するが、最終的には高騰し、時間/コストとバッチサイズのパレート曲線の膝点が生成される。
したがって、最適なバッチサイズは、基盤となるモデル、データ、利用可能な計算リソースに依存する。
大規模なバッチは、よく知られた一般化のギャップのために、モデル品質の悪化にも悩まされる。
本稿では,畳み込みモデルの大規模学習に要する時間,コスト,コンバージェンス品質を自動的に最適化するオンラインサービスであるTulaを紹介する。
並列システムモデリングと統計的性能予測を組み合わせて最適なバッチサイズを特定する。
Tulaは、複数のモデルで7.5-14%の誤差でトレーニング時間とコストを予測し、全体的なスピードアップを最大20倍に向上し、様々なビジョンタスクにおける標準的な大規模バッチトレーニングよりも、テスト精度を9%向上させ、一般化ギャップを緩和し、同時にトレーニングを加速させることに成功した。
関連論文リスト
- Hybrid Dual-Batch and Cyclic Progressive Learning for Efficient Distributed Training [1.084959821967413]
ResNet-18による実験結果から,従来のトレーニング手法に比べて精度が3.3%向上したことが示された。
循環的漸進学習とデュアルバッチ学習を組み合わせることで、モデル一般化とトレーニング効率の両方を改善することができる。
論文 参考訳(メタデータ) (2025-09-30T11:10:47Z) - CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization [9.826264204082095]
LLMやDLRMといった大規模なAIモデルのトレーニングには、膨大なGPUと計算時間を要する。
CoMERAは、多目的最適化の定式化により、ランク適応テンソル圧縮(pre)訓練を実現する。
CoMERAは、トレーニングのエポック1回あたり2ドル、メモリ効率がGaLoreよりも高い9ドルだ。
論文 参考訳(メタデータ) (2024-05-23T09:52:15Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Automated Learning Rate Scheduler for Large-batch Training [24.20872850681828]
大規模バッチトレーニングは、ディープラーニングにおける大規模データセットとモデルを活用する上で不可欠である。
小規模なバッチトレーニングと同等のパフォーマンスを達成するために、特別に設計された学習率(LR)スケジュールを必要とすることが多い。
本稿では,ニューラルネットワークのトレーニングに有効なLR自動スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T05:23:13Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。