論文の概要: How to Build Low-cost Networks for Large Language Models (without
Sacrificing Performance)?
- arxiv url: http://arxiv.org/abs/2307.12169v3
- Date: Wed, 1 Nov 2023 15:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:17:26.141994
- Title: How to Build Low-cost Networks for Large Language Models (without
Sacrificing Performance)?
- Title(参考訳): 大規模言語モデルのための低コストネットワークを構築するには(性能を犠牲にすることなく)?
- Authors: Weiyang Wang, Manya Ghobadi, Kayvon Shakeri, Ying Zhang, Naader Hasani
- Abstract要約: 大規模言語モデル(LLM)は、ほぼ最適な訓練性能を達成するために、高帯域通信を必要とする。
LLMの通信要求に類似した新しいネットワークアーキテクチャを提案する。
提案アーキテクチャは,最先端のクロスネットワークと比較してネットワークコストを37%から75%削減する。
- 参考スコア(独自算出の注目度): 7.8246968782274875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper challenges the well-established paradigm for building any-to-any
networks for training Large Language Models (LLMs). We show that LLMs exhibit a
unique communication pattern where only small groups of GPUs require
high-bandwidth communication to achieve near-optimal training performance.
Across these groups of GPUs, the communication is insignificant and
homogeneous. We propose a new network architecture that resembles the
communication requirement of LLMs. Our architecture partitions the cluster into
sets of GPUs interconnected with non-blocking any-to-any high-bandwidth
interconnects that we call HB domains. Across the HB domains, the network only
connects GPUs with non-zero communication demands. We develop an analytical
formulation of the training iteration time to evaluate our proposal. Our
formulation closely estimates the hardware floating-point utilization within
0.15\% from the ground truth established in prior studies for larger models. We
show that our proposed architecture reduces the network cost by 37% to 75%
compared to the state-of-the-art any-to-any Clos networks without compromising
the performance of LLM training.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) をトレーニングするためのネットワークを構築するための,確立されたパラダイムに挑戦する。
また,LLMは,低帯域幅のGPU群にのみ高い帯域幅通信を必要とするユニークな通信パターンを示す。
これらのGPUグループ全体で、通信は重要で均一である。
LLMの通信要求に類似した新しいネットワークアーキテクチャを提案する。
我々のアーキテクチャは、クラスタをHBドメインと呼ばれる非ブロッキングな高帯域相互接続と相互接続するGPUの集合に分割する。
HBドメイン全体では、ネットワークはGPUと非ゼロ通信要求のみを接続する。
提案手法を評価するために,学習反復時間の解析的定式化を行う。
本稿では,ハードウェア浮動小数点利用率を,大型モデルの先行研究で確立された基礎的真理から0.15\%以内に密接に推定する。
提案するアーキテクチャは,llmトレーニングの性能を損なうことなく,最先端のclosネットワークと比較して,ネットワークコストを37%から75%削減できることを示す。
関連論文リスト
- Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Toward efficient resource utilization at edge nodes in federated learning [0.6990493129893112]
フェデレートされた学習により、エッジノードは、データを共有することなく、グローバルモデルの構築に協力的に貢献することができる。
計算リソースの制約とネットワーク通信は、ディープラーニングアプリケーションに典型的なより大きなモデルサイズにとって、深刻なボトルネックになる可能性がある。
デバイス上での資源利用を減らすため,転送学習にインスパイアされたFL戦略を提案し,評価する。
論文 参考訳(メタデータ) (2023-09-19T07:04:50Z) - Forecasting Loss of Signal in Optical Networks with Machine Learning [5.148848708081841]
Loss of Signal (LOS) は、光ネットワークのオペレーターにとって大きなコストである。
教師あり機械学習(ML)を用いて、1~7日前にLOSイベントを精度良く予測できることを示す。
我々のモデルは、以前モデルに知られていなかった光ネットワークに対して有効であり、商用用途に使用することができる。
論文 参考訳(メタデータ) (2022-01-08T13:41:08Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - Comfetch: Federated Learning of Large Networks on Constrained Clients
via Sketching [28.990067638230254]
フェデレートラーニング(FL)は、エッジ上でのプライベートおよびコラボレーティブモデルトレーニングの一般的なパラダイムである。
我々は,グローバルニューラルネットワークの表現を用いて,クライアントが大規模ネットワークをトレーニングできる新しいアルゴリズムであるComdirectionalを提案する。
論文 参考訳(メタデータ) (2021-09-17T04:48:42Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Principal Component Networks: Parameter Reduction Early in Training [10.14522349959932]
パラメータ化されたネットワークと同じ性能を示す小さなネットワークを見つける方法を示す。
我々はPCAを用いて、層入力の高分散の基盤を見つけ、これらの方向を用いて層重みを表現する。
また、ResNet-20 PCNは、より高速なトレーニングを行いながら、Deep ResNet-110ネットワークより優れていることを示す。
論文 参考訳(メタデータ) (2020-06-23T21:40:24Z) - Adjoined Networks: A Training Paradigm with Applications to Network
Compression [3.995047443480282]
本稿では、元のベースネットワークとより小さな圧縮ネットワークの両方を同時にトレーニングする学習パラダイムであるAdjoined Networks(AN)を紹介する。
ベースネットワークとしてResNet-50を使用すると、画像Netデータセット上の1.8Mパラメータと1.6GFLOPで71.8%のトップ-1の精度が達成される。
我々は,ニューラルネットワーク探索を用いて,より小さなネットワークの各レイヤの幅と重みを共同で学習し,ANを増強する訓練パラダイムであるDaniable Adjoined Networks (DAN)を提案する。
論文 参考訳(メタデータ) (2020-06-10T02:48:16Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。