論文の概要: How to Build Low-cost Networks for Large Language Models (without
Sacrificing Performance)?
- arxiv url: http://arxiv.org/abs/2307.12169v3
- Date: Wed, 1 Nov 2023 15:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:17:26.141994
- Title: How to Build Low-cost Networks for Large Language Models (without
Sacrificing Performance)?
- Title(参考訳): 大規模言語モデルのための低コストネットワークを構築するには(性能を犠牲にすることなく)?
- Authors: Weiyang Wang, Manya Ghobadi, Kayvon Shakeri, Ying Zhang, Naader Hasani
- Abstract要約: 大規模言語モデル(LLM)は、ほぼ最適な訓練性能を達成するために、高帯域通信を必要とする。
LLMの通信要求に類似した新しいネットワークアーキテクチャを提案する。
提案アーキテクチャは,最先端のクロスネットワークと比較してネットワークコストを37%から75%削減する。
- 参考スコア(独自算出の注目度): 7.8246968782274875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper challenges the well-established paradigm for building any-to-any
networks for training Large Language Models (LLMs). We show that LLMs exhibit a
unique communication pattern where only small groups of GPUs require
high-bandwidth communication to achieve near-optimal training performance.
Across these groups of GPUs, the communication is insignificant and
homogeneous. We propose a new network architecture that resembles the
communication requirement of LLMs. Our architecture partitions the cluster into
sets of GPUs interconnected with non-blocking any-to-any high-bandwidth
interconnects that we call HB domains. Across the HB domains, the network only
connects GPUs with non-zero communication demands. We develop an analytical
formulation of the training iteration time to evaluate our proposal. Our
formulation closely estimates the hardware floating-point utilization within
0.15\% from the ground truth established in prior studies for larger models. We
show that our proposed architecture reduces the network cost by 37% to 75%
compared to the state-of-the-art any-to-any Clos networks without compromising
the performance of LLM training.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) をトレーニングするためのネットワークを構築するための,確立されたパラダイムに挑戦する。
また,LLMは,低帯域幅のGPU群にのみ高い帯域幅通信を必要とするユニークな通信パターンを示す。
これらのGPUグループ全体で、通信は重要で均一である。
LLMの通信要求に類似した新しいネットワークアーキテクチャを提案する。
我々のアーキテクチャは、クラスタをHBドメインと呼ばれる非ブロッキングな高帯域相互接続と相互接続するGPUの集合に分割する。
HBドメイン全体では、ネットワークはGPUと非ゼロ通信要求のみを接続する。
提案手法を評価するために,学習反復時間の解析的定式化を行う。
本稿では,ハードウェア浮動小数点利用率を,大型モデルの先行研究で確立された基礎的真理から0.15\%以内に密接に推定する。
提案するアーキテクチャは,llmトレーニングの性能を損なうことなく,最先端のclosネットワークと比較して,ネットワークコストを37%から75%削減できることを示す。
関連論文リスト
- Communication Optimization for Distributed Training: Architecture,
Advances, and Opportunities [4.855403267033463]
分散ディープニューラルネットワークトレーニングの一般的なアーキテクチャを導入し、並列化戦略、集合通信ライブラリ、ネットワーク間の関係を分析する。
現在の3層パラダイムのレイヤは比較的独立しているが、分散トレーニングシナリオでは、層間協調最適化のための豊富な設計スペースがある。
論文 参考訳(メタデータ) (2024-03-12T12:15:57Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the
Ugly [66.19763977571114]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Communication-minimizing Asynchronous Tensor Parallelism [1.295259696641579]
本稿では,大規模マルチビリオンパラメータモデルの並列学習において,通信によるアイドル時間を最小化するために,テンソル計算を並列化する新しい3次元アプローチを提案する。
256 A100 GPU上の28Bパラメータでは、CNN3DはMegatron-LMと比較してトレーニング時間を60%近く改善している。
論文 参考訳(メタデータ) (2023-05-22T22:41:49Z) - Survey on Large Scale Neural Network Training [48.424512364338746]
現代のディープニューラルネットワーク(DNN)は、トレーニング中にウェイト、アクティベーション、その他の中間テンソルを保存するためにかなりのメモリを必要とする。
この調査は、より効率的なDNNトレーニングを可能にするアプローチの体系的な概要を提供する。
論文 参考訳(メタデータ) (2022-02-21T18:48:02Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - Communication-Efficient Separable Neural Network for Distributed
Inference on Edge Devices [2.28438857884398]
本稿では,分散推論のためのニューラルネットワークを分離するために,モデル並列性を利用する新しい手法を提案する。
デバイスの適切な仕様とモデルの構成の下で、エッジクラスタ上の大規模ニューラルネットワークの推論が分散し、加速可能であることを示す実験を行った。
論文 参考訳(メタデータ) (2021-11-03T19:30:28Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。