論文の概要: A Look Into Training Large Language Models on Next Generation Datacenters
- arxiv url: http://arxiv.org/abs/2407.12819v1
- Date: Mon, 1 Jul 2024 10:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:47:38.339082
- Title: A Look Into Training Large Language Models on Next Generation Datacenters
- Title(参考訳): 次世代データセンターにおける大規模言語モデルの学習
- Authors: Alexandru M. Gherghescu, Vlad-Andrei Bădoiu, Alexandru Agache, Mihai-Valentin Dumitru, Iuliu Vasilescu, Radu Mantu, Costin Raiciu,
- Abstract要約: 私たちは、Microsoftが1000億ドルのMLデータセンターを構築する計画から始めて、関連研究の方向性を見つけるために、従来からあるアプローチを取っています。
私たちのゴールは、このようなデータセンターでどんなモデルをトレーニングできるか、それに直面する可能性のあるハイレベルな課題を理解することです。
データセンタの構築とそのようなモデルのトレーニングは技術的に可能であると結論付けていますが、これは新しいNICベースのマルチパストランスポートと、トレーニングスタック全体の再設計が必要です。
- 参考スコア(独自算出の注目度): 70.3084616806354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Is it still worth doing computer networking research? What are relevant problems in this space given the supremacy of hyperscalers in deployed large networks? We take an unconventional approach to finding relevant research directions, by starting from Microsoft's plans to build a $100 billion datacenter for ML. Our goal is to understand what models could be trained in such a datacenter, as well as the high-level challenges one may encounter in doing so. We first examine the constraints imposed by cooling and power requirements for our target datacenter and find that it is infeasible to build in a single location. We use LLM scaling laws to determine that we could train models of 50T or 100T. Finally, we examine how distributed training might work for these models, and what the networking requirements are. We conclude that building the datacenter and training such models is technically possible, but this requires a novel NIC-based multipath transport along with a redesign of the entire training stack, outlining a research agenda for our community in the near future.
- Abstract(参考訳): コンピューターネットワーキングの研究は、まだ価値があるだろうか?
デプロイされた大規模ネットワークにおけるハイパースケーラの優位性を考えると、この分野における関連する問題は何だろうか?
私たちは、Microsoftが1000億ドルのMLデータセンターを構築する計画から始めて、関連研究の方向性を見つけるために、従来からあるアプローチを取っています。
私たちのゴールは、このようなデータセンターでどんなモデルをトレーニングできるか、それに直面する可能性のあるハイレベルな課題を理解することです。
まず、ターゲットデータセンターの冷却と電力要求によって課される制約を調べ、単一の場所に構築することが不可能であることを確かめる。
LLMスケーリング法則を使って、50Tまたは100Tのモデルをトレーニングできると判断します。
最後に、これらのモデルで分散トレーニングがどのように機能するか、そしてネットワーク要件が何であるかを検討する。
データセンタの構築とそのようなモデルのトレーニングは技術的に可能であると結論付けていますが、これはNICベースの新しいマルチパストランスポートと、トレーニングスタック全体の再設計を必要とします。
関連論文リスト
- Pretraining Billion-scale Geospatial Foundational Models on Frontier [0.16492989697868893]
ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練される。
本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。
我々のより大きな3Bパラメータサイズモデルでは、トップ1シーンの分類精度が最大30%向上する。
論文 参考訳(メタデータ) (2024-04-17T19:16:32Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study [57.97785297481162]
代表的なCV, NLP, ASRモデルに対して, 異なるゾーン, 大陸, 雲におけるトレーニングの費用とスループットについて検討した。
スポット価格を活用することで、複数の安価なインスタンスでモデルをトレーニングし、より集中的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を台無しにする、新たなコスト効率の方法が実現されることを示す。
論文 参考訳(メタデータ) (2023-06-05T18:17:37Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - The MIT Supercloud Workload Classification Challenge [10.458111248130944]
本稿では,MIT Supercloudデータセットに基づくワークロード分類の課題について述べる。
この課題の目標は、計算ワークロードの分析におけるアルゴリズムのイノベーションを促進することである。
論文 参考訳(メタデータ) (2022-04-12T14:28:04Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z) - Characterizing and Modeling Distributed Training with Transient Cloud
GPU Servers [6.56704851092678]
CM-DAREを用いて,多様なクラスタ構成下での分散トレーニング性能を解析する。
私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。
また、回帰モデルを用いてトレーニング速度とオーバーヘッドを予測することが可能であることを示す。
論文 参考訳(メタデータ) (2020-04-07T01:49:58Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。