論文の概要: $100K or 100 Days: Trade-offs when Pre-Training with Academic Resources
- arxiv url: http://arxiv.org/abs/2410.23261v1
- Date: Wed, 30 Oct 2024 17:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:28:43.003448
- Title: $100K or 100 Days: Trade-offs when Pre-Training with Academic Resources
- Title(参考訳): 1万日、100日: 学術的リソースによる事前学習のトレードオフ
- Authors: Apoorv Khandelwal, Tian Yun, Nihal V. Nayak, Jack Merullo, Stephen H. Bach, Chen Sun, Ellie Pavlick,
- Abstract要約: プレトレーニングは計算集約的なことで知られ、学術研究者はリソース不足で有名です。
このようなリソース上でモデルを複製する時間を経験的に測定します。
我々は、価格と事前訓練時間のトレードオフを明らかにするために、費用対効果分析で締めくくります。
- 参考スコア(独自算出の注目度): 37.08397262486062
- License:
- Abstract: Pre-training is notoriously compute-intensive and academic researchers are notoriously under-resourced. It is, therefore, commonly assumed that academics can't pre-train models. In this paper, we seek to clarify this assumption. We first survey academic researchers to learn about their available compute and then empirically measure the time to replicate models on such resources. We introduce a benchmark to measure the time to pre-train models on given GPUs and also identify ideal settings for maximizing training speed. We run our benchmark on a range of models and academic GPUs, spending 2,000 GPU-hours on our experiments. Our results reveal a brighter picture for academic pre-training: for example, although Pythia-1B was originally trained on 64 GPUs for 3 days, we find it is also possible to replicate this model (with the same hyper-parameters) in 3x fewer GPU-days: i.e. on 4 GPUs in 18 days. We conclude with a cost-benefit analysis to help clarify the trade-offs between price and pre-training time. We believe our benchmark will help academic researchers conduct experiments that require training larger models on more data. We fully release our codebase at: https://github.com/apoorvkh/academic-pretraining.
- Abstract(参考訳): プレトレーニングは計算集約的なことで知られ、学術研究者はリソース不足で有名です。
したがって、研究者は事前訓練モデルはできないと一般的に想定されている。
本稿では,この仮定を明確にする。
まず、研究者を対象に、利用可能な計算について学び、その後、そのようなリソース上でモデルを複製する時間を経験的に測定する。
所与のGPU上で事前トレーニングする時間を測定するためのベンチマークを導入し、トレーニング速度を最大化するための理想的な設定を特定する。
ベンチマークをさまざまなモデルと学術的なGPU上で実行し、実験に2000GPU時間を費やしました。
例えば、Pythia-1Bは元々64のGPUで3日間トレーニングされていたが、このモデルを(同じハイパーパラメータで)3倍少ないGPUで再現することも可能である。
我々は、価格と事前訓練時間のトレードオフを明らかにするために、費用対効果分析で締めくくります。
われわれのベンチマークは、研究者がより多くのデータでより大きなモデルを訓練する必要がある実験を行うのに役立つと信じている。
コードベースは、https://github.com/apoorvkh/academic-pretraining.comで完全にリリースしています。
関連論文リスト
- Data-driven Forecasting of Deep Learning Performance on GPUs [10.741682409837612]
NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。
NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。
GPT3モデルのトレーニングとH100での推論の遅延を予測して、198%と19.7%から3.8%に減少する。
論文 参考訳(メタデータ) (2024-07-18T18:47:52Z) - Flash3D: Feed-Forward Generalisable 3D Scene Reconstruction from a Single Image [80.48452783328995]
Flash3Dは、1つの画像からシーン再構成と新しいビュー合成を行う方法である。
一般性については、単分子深度推定のための「基礎」モデルから始める。
効率性のために、我々はこの拡張をフィードフォワードガウススプラッティングに基づける。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。
本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。
その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文 参考訳(メタデータ) (2024-05-28T17:33:54Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Training a Large Video Model on a Single Machine in a Day [5.247398948623659]
コンシューマグレードのGPUを1日に8台搭載した1台のマシン上で,最先端のビデオモデルをトレーニングする方法を示す。
IO、CPU、GPUの3つのボトルネックを特定し、それぞれを最適化します。
同等のアーキテクチャでは、私たちのパイプラインは以前の処理に比べて、$frac18$の計算で高い精度を実現しています。
論文 参考訳(メタデータ) (2023-09-28T17:59:50Z) - Implicit SVD for Graph Representation Learning [33.761179632722]
控えめなハードウェアを持つ人には、グラフ表現学習をより計算的に学習しやすいものにします。
我々はSOTAモデルの線形近似を導出し、入出力を計算せずに$mathbfM$のSVDを介して閉形式でモデルを訓練する。
我々のモデルは、様々なグラフ上での競合実証試験性能を示す。
論文 参考訳(メタデータ) (2021-11-11T16:58:17Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z) - ZeRO-Offload: Democratizing Billion-Scale Model Training [16.43347399073034]
ZeRO-Offloadは、データと計算をCPUにオフロードすることで、大規模なモデルトレーニングを可能にする。
単一のGPU上で13億以上のパラメータを持つモデルをトレーニングでき、PyTorchのような一般的なフレームワークと比較して10倍のサイズになる。
論文 参考訳(メタデータ) (2021-01-18T02:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。