論文の概要: Rail-only: A Low-Cost High-Performance Network for Training LLMs with Trillion Parameters
- arxiv url: http://arxiv.org/abs/2307.12169v4
- Date: Sat, 27 Jul 2024 20:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 01:06:50.370056
- Title: Rail-only: A Low-Cost High-Performance Network for Training LLMs with Trillion Parameters
- Title(参考訳): レールのみ:トリリオンパラメータを用いたLDM訓練のための低コスト高性能ネットワーク
- Authors: Weiyang Wang, Manya Ghobadi, Kayvon Shakeri, Ying Zhang, Naader Hasani,
- Abstract要約: 本稿では,大規模言語モデル(LLM)をハイパースケールでトレーニングするための,低コストなネットワークアーキテクチャを提案する。
LLMトレーニングでは,ネットワーク内の疎結合パターンが生成され,全二分割ネットワークを効率的に構築する必要がなくなる。
- 参考スコア(独自算出の注目度): 7.293402047354488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a low-cost network architecture for training large language models (LLMs) at hyperscale. We study the optimal parallelization strategy of LLMs and propose a novel datacenter network design tailored to LLM's unique communication pattern. We show that LLM training generates sparse communication patterns in the network and, therefore, does not require any-to-any full-bisection network to complete efficiently. As a result, our design eliminates the spine layer in traditional GPU clusters. We name this design a Rail-only network and demonstrate that it achieves the same training performance while reducing the network cost by 38% to 77% and network power consumption by 37% to 75% compared to a conventional GPU datacenter. Our architecture also supports Mixture-of-Expert (MoE) models with all-to-all communication through forwarding, with only 4.1% to 5.6% completion time overhead for all-to-all traffic. We study the failure robustness of Rail-only networks and provide insights into the performance impact of different network and training parameters.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)をハイパースケールでトレーニングするための,低コストなネットワークアーキテクチャを提案する。
LLMの最適並列化戦略について検討し、LLMのユニークな通信パターンに合わせた新しいデータセンターネットワーク設計を提案する。
LLMトレーニングでは,ネットワーク内の疎結合パターンが生成され,全二分割ネットワークを効率的に構築する必要がなくなる。
その結果,従来のGPUクラスタのスピン層を排除した。
この設計をRailオンリーネットワークと呼び、従来のGPUデータセンタと比較してネットワークコストを38%から77%削減し、ネットワーク消費電力を37%から75%削減しながら、同じトレーニング性能を達成することを示した。
私たちのアーキテクチャは、全トラフィックに対して4.1%から5.6%の完了時間オーバーヘッドしか持たない、全対全通信を備えたMixture-of-Expert(MoE)モデルもサポートしています。
レールのみのネットワークにおける障害の堅牢性について検討し、異なるネットワークとトレーニングパラメータのパフォーマンスへの影響について考察する。
関連論文リスト
- Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Toward efficient resource utilization at edge nodes in federated learning [0.6990493129893112]
フェデレートされた学習により、エッジノードは、データを共有することなく、グローバルモデルの構築に協力的に貢献することができる。
計算リソースの制約とネットワーク通信は、ディープラーニングアプリケーションに典型的なより大きなモデルサイズにとって、深刻なボトルネックになる可能性がある。
デバイス上での資源利用を減らすため,転送学習にインスパイアされたFL戦略を提案し,評価する。
論文 参考訳(メタデータ) (2023-09-19T07:04:50Z) - Forecasting Loss of Signal in Optical Networks with Machine Learning [5.148848708081841]
Loss of Signal (LOS) は、光ネットワークのオペレーターにとって大きなコストである。
教師あり機械学習(ML)を用いて、1~7日前にLOSイベントを精度良く予測できることを示す。
我々のモデルは、以前モデルに知られていなかった光ネットワークに対して有効であり、商用用途に使用することができる。
論文 参考訳(メタデータ) (2022-01-08T13:41:08Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - Comfetch: Federated Learning of Large Networks on Constrained Clients
via Sketching [28.990067638230254]
フェデレートラーニング(FL)は、エッジ上でのプライベートおよびコラボレーティブモデルトレーニングの一般的なパラダイムである。
我々は,グローバルニューラルネットワークの表現を用いて,クライアントが大規模ネットワークをトレーニングできる新しいアルゴリズムであるComdirectionalを提案する。
論文 参考訳(メタデータ) (2021-09-17T04:48:42Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Principal Component Networks: Parameter Reduction Early in Training [10.14522349959932]
パラメータ化されたネットワークと同じ性能を示す小さなネットワークを見つける方法を示す。
我々はPCAを用いて、層入力の高分散の基盤を見つけ、これらの方向を用いて層重みを表現する。
また、ResNet-20 PCNは、より高速なトレーニングを行いながら、Deep ResNet-110ネットワークより優れていることを示す。
論文 参考訳(メタデータ) (2020-06-23T21:40:24Z) - Adjoined Networks: A Training Paradigm with Applications to Network
Compression [3.995047443480282]
本稿では、元のベースネットワークとより小さな圧縮ネットワークの両方を同時にトレーニングする学習パラダイムであるAdjoined Networks(AN)を紹介する。
ベースネットワークとしてResNet-50を使用すると、画像Netデータセット上の1.8Mパラメータと1.6GFLOPで71.8%のトップ-1の精度が達成される。
我々は,ニューラルネットワーク探索を用いて,より小さなネットワークの各レイヤの幅と重みを共同で学習し,ANを増強する訓練パラダイムであるDaniable Adjoined Networks (DAN)を提案する。
論文 参考訳(メタデータ) (2020-06-10T02:48:16Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。