論文の概要: T3: Transparent Tracking & Triggering for Fine-grained Overlap of
Compute & Collectives
- arxiv url: http://arxiv.org/abs/2401.16677v1
- Date: Tue, 30 Jan 2024 01:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:30:19.661685
- Title: T3: Transparent Tracking & Triggering for Fine-grained Overlap of
Compute & Collectives
- Title(参考訳): t3: 計算と集合のきめ細かい重複に対する透過的トラッキングとトリガー
- Authors: Suchita Pati, Shaizeen Aga, Mahzabeen Islam, Nuwan Jayasena and
Matthew D. Sinclair
- Abstract要約: 大規模言語モデルは、トレーニングと推論のために分散技術にますます依存しています。
このような手法は本質的にモデル実行と通信をシリアライズする。
このシリアライズされた通信を隠す方法の1つは、(通信されたデータの)プロデューサ操作をきめ細かな方法でインターリーブすることである。
本稿では,リソース競合を最小限に抑えつつ,並列化通信を透過的に重複させるハードウェア・ソフトウェア共同設計のT3を提案する。
- 参考スコア(独自算出の注目度): 1.908240145212707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models increasingly rely on distributed techniques for their
training and inference. These techniques require communication across devices
which can reduce scaling efficiency as the number of devices increases. While
some distributed techniques can overlap, and thus, hide this communication with
independent computations, techniques such as Tensor Parallelism (TP) inherently
serialize communication with model execution. One approach to hide this
serialized communication is to interleave it with the producer operation (of
the communicated data) in a fine-grained manner. However, this fine-grained
interleaving of communication and computation in software can be difficult.
Furthermore, as with any concurrent execution, it requires compute and memory
resources to be shared between computation and communication, causing resource
contention that reduces overlapping efficacy.
To overcome these challenges, we propose T3 which applies hardware-software
co-design to transparently overlap serialized communication while minimizing
resource contention with compute. T3 transparently fuses producer operations
with the subsequent communication via a simple configuration of the producer's
output address space and requires minor software changes. At the hardware
level, T3 adds a lightweight track and trigger mechanism to orchestrate the
producer's compute, and communication. It further uses compute-enhanced
memories for communication's attendant compute. As a result, T3 reduces
resource contention, and efficiently overlaps serialized communication with
computation. For important Transformer models like T-NLG, T3 speeds up
communication-heavy sublayers by 30% geomean (max 47%) and reduces data
movement by 22% geomean (max 36%). Furthermore, T3's benefits persist as models
scale: geomean 29% for sublayers in $\sim$500-billion parameter models, PALM
and MT-NLG.
- Abstract(参考訳): 大規模言語モデルは、トレーニングと推論のために分散技術に依存している。
これらの技術はデバイス間の通信を必要とするため、デバイス数の増加に伴ってスケーリング効率が低下する可能性がある。
いくつかの分散技術は、この通信を独立した計算で隠すことができるが、Tensor Parallelism (TP)のような技術は本質的にモデル実行と通信をシリアライズする。
このシリアル化された通信を隠す一つのアプローチは、(通信されたデータの)プロデューサ操作とインターリーブすることである。
しかし,ソフトウェアにおけるコミュニケーションや計算の微粒化は困難である。
さらに、並列実行と同様に、計算リソースとメモリリソースを計算と通信の間で共有する必要があるため、リソース競合が発生し、重複効率が低下する。
これらの課題を克服するために,ハードウェア・ソフトウェア共同設計を適用したT3を提案する。
T3は、プロデューサの出力アドレス空間の単純な構成を通じて、後続の通信と透過的にプロデューサの操作を融合させる。
ハードウェアレベルでは、t3はプロデューサの計算と通信をオーケストレーションするための軽量なトラックとトリガー機構を追加する。
さらに、通信のアテンダント計算に計算強化メモリを使用する。
その結果、T3はリソース競合を低減し、シリアライズされた通信と計算を効率的に重畳する。
T-NLGのような重要なトランスフォーマーモデルでは、T3は通信重層を30%Geomean(最大47%)スピードアップし、データ移動を22%Geomean(最大36%)スピードアップする。
さらに、T3の利点はモデルスケールとして持続する:$\sim$500-billionパラメータモデル、PALMおよびMT-NLGのサブレイヤのジオ平均29%。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - FedScalar: A Communication efficient Federated Learning [0.0]
フェデレーテッド・ラーニング(FL)は分散機械学習でかなりの人気を集めている。
emphFedScalarは、エージェントが単一のスカラーを使用して更新を通信することを可能にする。
論文 参考訳(メタデータ) (2024-10-03T07:06:49Z) - FedFT: Improving Communication Performance for Federated Learning with Frequency Space Transformation [0.361593752383807]
フェデレート学習環境におけるモデルパラメータを伝達するための簡易かつ効果的な手法であるFedFT(Federated frequency-space transformation)を導入する。
FedFTは離散コサイン変換(DCT)を用いて周波数空間のモデルパラメータを表現し、効率的な圧縮と通信オーバーヘッドの低減を実現している。
我々は,3つの最先端FLベースラインとの比較研究を用いて,FedFT手法の4つのデータセット上での汎用性を実証した。
論文 参考訳(メタデータ) (2024-09-08T23:05:35Z) - ISO: Overlap of Computation and Communication within Seqenence For LLM Inference [8.616769297336708]
本稿では,シーケンスレベルで動作する計算通信重複に対する新しい戦略を提案する。
30b/70bモデルを用いて実験を行った結果,効率が著しく向上した。
論文 参考訳(メタデータ) (2024-09-04T05:22:17Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Synthesizing Collective Communication Algorithms for Heterogeneous
Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。
TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。
TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文 参考訳(メタデータ) (2021-11-08T23:20:52Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。