論文の概要: A Look Into Training Large Language Models on Next Generation Datacenters
- arxiv url: http://arxiv.org/abs/2407.12819v1
- Date: Mon, 1 Jul 2024 10:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:47:38.339082
- Title: A Look Into Training Large Language Models on Next Generation Datacenters
- Title(参考訳): 次世代データセンターにおける大規模言語モデルの学習
- Authors: Alexandru M. Gherghescu, Vlad-Andrei Bădoiu, Alexandru Agache, Mihai-Valentin Dumitru, Iuliu Vasilescu, Radu Mantu, Costin Raiciu,
- Abstract要約: 私たちは、Microsoftが1000億ドルのMLデータセンターを構築する計画から始めて、関連研究の方向性を見つけるために、従来からあるアプローチを取っています。
私たちのゴールは、このようなデータセンターでどんなモデルをトレーニングできるか、それに直面する可能性のあるハイレベルな課題を理解することです。
データセンタの構築とそのようなモデルのトレーニングは技術的に可能であると結論付けていますが、これは新しいNICベースのマルチパストランスポートと、トレーニングスタック全体の再設計が必要です。
- 参考スコア(独自算出の注目度): 70.3084616806354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Is it still worth doing computer networking research? What are relevant problems in this space given the supremacy of hyperscalers in deployed large networks? We take an unconventional approach to finding relevant research directions, by starting from Microsoft's plans to build a $100 billion datacenter for ML. Our goal is to understand what models could be trained in such a datacenter, as well as the high-level challenges one may encounter in doing so. We first examine the constraints imposed by cooling and power requirements for our target datacenter and find that it is infeasible to build in a single location. We use LLM scaling laws to determine that we could train models of 50T or 100T. Finally, we examine how distributed training might work for these models, and what the networking requirements are. We conclude that building the datacenter and training such models is technically possible, but this requires a novel NIC-based multipath transport along with a redesign of the entire training stack, outlining a research agenda for our community in the near future.
- Abstract(参考訳): コンピューターネットワーキングの研究は、まだ価値があるだろうか?
デプロイされた大規模ネットワークにおけるハイパースケーラの優位性を考えると、この分野における関連する問題は何だろうか?
私たちは、Microsoftが1000億ドルのMLデータセンターを構築する計画から始めて、関連研究の方向性を見つけるために、従来からあるアプローチを取っています。
私たちのゴールは、このようなデータセンターでどんなモデルをトレーニングできるか、それに直面する可能性のあるハイレベルな課題を理解することです。
まず、ターゲットデータセンターの冷却と電力要求によって課される制約を調べ、単一の場所に構築することが不可能であることを確かめる。
LLMスケーリング法則を使って、50Tまたは100Tのモデルをトレーニングできると判断します。
最後に、これらのモデルで分散トレーニングがどのように機能するか、そしてネットワーク要件が何であるかを検討する。
データセンタの構築とそのようなモデルのトレーニングは技術的に可能であると結論付けていますが、これはNICベースの新しいマルチパストランスポートと、トレーニングスタック全体の再設計を必要とします。
関連論文リスト
- Generalizability of Graph Neural Networks for Decentralized Unlabeled Motion Planning [72.86540018081531]
ラベルなしの動作計画では、衝突回避を確保しながら、ロボットのセットを目標の場所に割り当てる。
この問題は、探査、監視、輸送などの応用において、マルチロボットシステムにとって不可欠なビルディングブロックを形成している。
この問題に対処するために、各ロボットは、その400ドルのアネレストロボットと$k$アネレストターゲットの位置のみを知っている分散環境で対処する。
論文 参考訳(メタデータ) (2024-09-29T23:57:25Z) - Prioritising Interactive Flows in Data Center Networks With Central
Control [0.0]
データセンターネットワークにおける対話型フローの優先順位付けを支援する中央制御器に関する2つの問題に対処する。
論文の前半では,ソフトウェア定義ネットワークにおける渋滞制御の問題に対処する。
本稿では,ネットワークのグローバルビューを持つコントローラが,エンドTCPホストの混雑制御決定に積極的に参加するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-27T07:15:15Z) - Machine Learning-Based User Scheduling in Integrated
Satellite-HAPS-Ground Networks [82.58968700765783]
第6世代通信ネットワーク(6G)の強化のための価値あるソリューション空間の提供を約束する。
本稿では,空対地統合通信におけるユーザスケジューリングにおける機械学習の可能性について述べる。
論文 参考訳(メタデータ) (2022-05-27T13:09:29Z) - A review of Federated Learning in Intrusion Detection Systems for IoT [0.15469452301122172]
侵入検知システムは、環境中の異常を検索するデータ分析を行うインテリジェントシステムへと進化している。
ディープラーニング技術は、より複雑で効果的な脅威検出モデルを構築するための扉を開いた。
現在のアプローチは、すべてのパーティからデータを受け取る強力な集中型サーバに依存しています。
本稿では,侵入検出分野におけるフェデレートラーニング手法の適用に焦点を当てた。
論文 参考訳(メタデータ) (2022-04-26T17:00:07Z) - Machine Learning Empowered Intelligent Data Center Networking: A Survey [35.55535885962517]
本稿では,機械学習のデータセンターネットワークへの応用を包括的に検討する。
フロー予測、フロー分類、ロードバランシング、リソース管理、ルーティング最適化、渋滞制御をカバーしている。
我々はREBEL-3Sと呼ばれる品質評価基準を設計し、これらの研究の長所と短所を公平に測定する。
論文 参考訳(メタデータ) (2022-02-28T05:27:22Z) - Learning Connectivity for Data Distribution in Robot Teams [96.39864514115136]
グラフニューラルネットワーク(GNN)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散化,低レイテンシ手法を提案する。
当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。
我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。
論文 参考訳(メタデータ) (2021-03-08T21:48:55Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Scalable Learning Paradigms for Data-Driven Wireless Communication [45.03425546213185]
我々は,スケーラブルなデータ駆動無線ネットワークの構築ブロックについて,体系的な議論を行うことを目指している。
一方、グローバルな視点から、スケーラブルなデータ駆動システムの先見的なアーキテクチャとコンピューティングフレームワークについて論じる。
一方,各ノードにおける学習アルゴリズムとモデル学習戦略を局所的な視点から検討する。
論文 参考訳(メタデータ) (2020-03-01T12:13:58Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。