論文の概要: Optimized Network Architectures for Large Language Model Training with
Billions of Parameters
- arxiv url: http://arxiv.org/abs/2307.12169v2
- Date: Sat, 21 Oct 2023 03:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 08:11:51.409126
- Title: Optimized Network Architectures for Large Language Model Training with
Billions of Parameters
- Title(参考訳): 数十億のパラメータを持つ大規模言語モデル学習のための最適化ネットワークアーキテクチャ
- Authors: Weiyang Wang, Manya Ghobadi, Kayvon Shakeri, Ying Zhang, Naader Hasani
- Abstract要約: 本稿では,Large Language Models (LLM) のトレーニングのためのネットワーク構築のための,確立されたパラダイムに挑戦する。
LLMは、GPUの小さなグループだけが、その内部で高い帯域幅の通信を必要とするユニークな通信パターンを示し、ほぼ最適の訓練性能を実現する。
LLMの通信要求によく似た新しいネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 7.8246968782274875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper challenges the well-established paradigm for building any-to-any
networks for training Large Language Models (LLMs). We show that LLMs exhibit a
unique communication pattern where only small groups of GPUs require
high-bandwidth any-to-any communication within them, to achieve near-optimal
training performance. Across these groups of GPUs, the communication is
insignificant, sparse, and homogeneous. We propose a new network architecture
that closely resembles the communication requirement of LLMs. Our architecture
partitions the cluster into sets of GPUs interconnected with non-blocking
any-to-any high-bandwidth interconnects that we call HB domains. Across the HB
domains, the network only connects GPUs with communication demands. We call
this network a "rail-only" connection, and show that our proposed architecture
reduces the network cost by up to 75% compared to the state-of-the-art
any-to-any Clos networks without compromising the performance of LLM training.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) をトレーニングするためのネットワークを構築するための,確立されたパラダイムに挑戦する。
LLM は,GPU の小さなグループだけが,その内部で高い帯域幅の通信を必要とするようなユニークな通信パターンを示し,ほぼ最適トレーニング性能を実現する。
これらのGPUグループ全体で、通信は重要でなく、疎外であり、均一である。
LLMの通信要求によく似た新しいネットワークアーキテクチャを提案する。
我々のアーキテクチャは、クラスタをHBドメインと呼ばれる非ブロッキングな高帯域相互接続と相互接続するGPUの集合に分割する。
HBドメイン全体では、ネットワークはGPUと通信要求のみを接続する。
我々は、このネットワークを「レールのみ」接続と呼び、LLMトレーニングの性能を損なうことなく、最先端のクロースネットワークと比較して、提案アーキテクチャがネットワークコストを最大75%削減することを示す。
関連論文リスト
- Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Toward efficient resource utilization at edge nodes in federated learning [0.6990493129893112]
フェデレートされた学習により、エッジノードは、データを共有することなく、グローバルモデルの構築に協力的に貢献することができる。
計算リソースの制約とネットワーク通信は、ディープラーニングアプリケーションに典型的なより大きなモデルサイズにとって、深刻なボトルネックになる可能性がある。
デバイス上での資源利用を減らすため,転送学習にインスパイアされたFL戦略を提案し,評価する。
論文 参考訳(メタデータ) (2023-09-19T07:04:50Z) - Forecasting Loss of Signal in Optical Networks with Machine Learning [5.148848708081841]
Loss of Signal (LOS) は、光ネットワークのオペレーターにとって大きなコストである。
教師あり機械学習(ML)を用いて、1~7日前にLOSイベントを精度良く予測できることを示す。
我々のモデルは、以前モデルに知られていなかった光ネットワークに対して有効であり、商用用途に使用することができる。
論文 参考訳(メタデータ) (2022-01-08T13:41:08Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - Comfetch: Federated Learning of Large Networks on Constrained Clients
via Sketching [28.990067638230254]
フェデレートラーニング(FL)は、エッジ上でのプライベートおよびコラボレーティブモデルトレーニングの一般的なパラダイムである。
我々は,グローバルニューラルネットワークの表現を用いて,クライアントが大規模ネットワークをトレーニングできる新しいアルゴリズムであるComdirectionalを提案する。
論文 参考訳(メタデータ) (2021-09-17T04:48:42Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Principal Component Networks: Parameter Reduction Early in Training [10.14522349959932]
パラメータ化されたネットワークと同じ性能を示す小さなネットワークを見つける方法を示す。
我々はPCAを用いて、層入力の高分散の基盤を見つけ、これらの方向を用いて層重みを表現する。
また、ResNet-20 PCNは、より高速なトレーニングを行いながら、Deep ResNet-110ネットワークより優れていることを示す。
論文 参考訳(メタデータ) (2020-06-23T21:40:24Z) - Adjoined Networks: A Training Paradigm with Applications to Network
Compression [3.995047443480282]
本稿では、元のベースネットワークとより小さな圧縮ネットワークの両方を同時にトレーニングする学習パラダイムであるAdjoined Networks(AN)を紹介する。
ベースネットワークとしてResNet-50を使用すると、画像Netデータセット上の1.8Mパラメータと1.6GFLOPで71.8%のトップ-1の精度が達成される。
我々は,ニューラルネットワーク探索を用いて,より小さなネットワークの各レイヤの幅と重みを共同で学習し,ANを増強する訓練パラダイムであるDaniable Adjoined Networks (DAN)を提案する。
論文 参考訳(メタデータ) (2020-06-10T02:48:16Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。