Fugu-MT 論文翻訳(概要): T3: Transparent Tracking & Triggering for Fine-grained Overlap of Compute & Collectives

論文の概要: T3: Transparent Tracking & Triggering for Fine-grained Overlap of Compute & Collectives

arxiv url: http://arxiv.org/abs/2401.16677v1
Date: Tue, 30 Jan 2024 01:55:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 16:30:19.661685
Title: T3: Transparent Tracking & Triggering for Fine-grained Overlap of Compute & Collectives
Title（参考訳）: t3: 計算と集合のきめ細かい重複に対する透過的トラッキングとトリガー
Authors: Suchita Pati, Shaizeen Aga, Mahzabeen Islam, Nuwan Jayasena and Matthew D. Sinclair
Abstract要約: 大規模言語モデルは、トレーニングと推論のために分散技術にますます依存しています。このような手法は本質的にモデル実行と通信をシリアライズする。このシリアライズされた通信を隠す方法の1つは、(通信されたデータの)プロデューサ操作をきめ細かな方法でインターリーブすることである。本稿では,リソース競合を最小限に抑えつつ,並列化通信を透過的に重複させるハードウェア・ソフトウェア共同設計のT3を提案する。
参考スコア（独自算出の注目度）: 1.908240145212707
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models increasingly rely on distributed techniques for their training and inference. These techniques require communication across devices which can reduce scaling efficiency as the number of devices increases. While some distributed techniques can overlap, and thus, hide this communication with independent computations, techniques such as Tensor Parallelism (TP) inherently serialize communication with model execution. One approach to hide this serialized communication is to interleave it with the producer operation (of the communicated data) in a fine-grained manner. However, this fine-grained interleaving of communication and computation in software can be difficult. Furthermore, as with any concurrent execution, it requires compute and memory resources to be shared between computation and communication, causing resource contention that reduces overlapping efficacy. To overcome these challenges, we propose T3 which applies hardware-software co-design to transparently overlap serialized communication while minimizing resource contention with compute. T3 transparently fuses producer operations with the subsequent communication via a simple configuration of the producer's output address space and requires minor software changes. At the hardware level, T3 adds a lightweight track and trigger mechanism to orchestrate the producer's compute, and communication. It further uses compute-enhanced memories for communication's attendant compute. As a result, T3 reduces resource contention, and efficiently overlaps serialized communication with computation. For important Transformer models like T-NLG, T3 speeds up communication-heavy sublayers by 30% geomean (max 47%) and reduces data movement by 22% geomean (max 36%). Furthermore, T3's benefits persist as models scale: geomean 29% for sublayers in $\sim$500-billion parameter models, PALM and MT-NLG.
Abstract（参考訳）: 大規模言語モデルは、トレーニングと推論のために分散技術に依存している。これらの技術はデバイス間の通信を必要とするため、デバイス数の増加に伴ってスケーリング効率が低下する可能性がある。いくつかの分散技術は、この通信を独立した計算で隠すことができるが、Tensor Parallelism (TP)のような技術は本質的にモデル実行と通信をシリアライズする。このシリアル化された通信を隠す一つのアプローチは、(通信されたデータの)プロデューサ操作とインターリーブすることである。しかし,ソフトウェアにおけるコミュニケーションや計算の微粒化は困難である。さらに、並列実行と同様に、計算リソースとメモリリソースを計算と通信の間で共有する必要があるため、リソース競合が発生し、重複効率が低下する。これらの課題を克服するために,ハードウェア・ソフトウェア共同設計を適用したT3を提案する。 T3は、プロデューサの出力アドレス空間の単純な構成を通じて、後続の通信と透過的にプロデューサの操作を融合させる。ハードウェアレベルでは、t3はプロデューサの計算と通信をオーケストレーションするための軽量なトラックとトリガー機構を追加する。さらに、通信のアテンダント計算に計算強化メモリを使用する。その結果、T3はリソース競合を低減し、シリアライズされた通信と計算を効率的に重畳する。 T-NLGのような重要なトランスフォーマーモデルでは、T3は通信重層を30%Geomean(最大47%)スピードアップし、データ移動を22%Geomean(最大36%)スピードアップする。さらに、T3の利点はモデルスケールとして持続する:$\sim$500-billionパラメータモデル、PALMおよびMT-NLGのサブレイヤのジオ平均29%。

関連論文リスト

FlashOverlap: A Lightweight Design for Efficiently Overlapping Communication and Computation [6.284874558004134]
我々は,タイルワイドオーバーラップ,干渉のない計算,通信非依存を特徴とする軽量な設計であるFlashOverlapを提案する。実験の結果、このような軽量な設計は最大1.65倍のスピードアップを実現しており、ほとんどの場合、既存の作業よりも優れていた。
論文参考訳（メタデータ） (2025-04-28T06:37:57Z)
Sparsity-Aware Communication for Distributed Graph Neural Network Training [0.41942958779358674]
グラフニューラルネットワーク(GNN)は、グラフデータの埋め込みや分類を学ぶための計算効率の良い手法である。 GNNトレーニングは計算強度が低く、通信コストがスケーラビリティのボトルネックとなる。我々は3つの新しいアプローチでGNN訓練における通信ボトルネックに対処する空間性認識アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-04-07T01:53:14Z)
Ladder-residual: parallelism-aware architecture for accelerating large model inference with communication overlapping [36.71999572939612]
すべての残差ベースモデルに適用可能な,シンプルなアーキテクチャ変更であるLadder Residualを紹介する。 Ladder Residualをすべてのレイヤに適用することで、TPシャーディングを8デバイス以上使用することで、推論時にエンドツーエンドのウォールクロックを29%高速化することができる。 1Bおよび3Bラダー変換器をスクラッチからトレーニングし、標準の高密度変圧器ベースラインに匹敵する性能を観測する。
論文参考訳（メタデータ） (2025-01-11T17:06:30Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
FedScalar: A Communication efficient Federated Learning [0.0]
フェデレーテッド・ラーニング(FL)は分散機械学習でかなりの人気を集めている。 emphFedScalarは、エージェントが単一のスカラーを使用して更新を通信することを可能にする。
論文参考訳（メタデータ） (2024-10-03T07:06:49Z)
FedFT: Improving Communication Performance for Federated Learning with Frequency Space Transformation [0.361593752383807]
フェデレート学習環境におけるモデルパラメータを伝達するための簡易かつ効果的な手法であるFedFT(Federated frequency-space transformation)を導入する。 FedFTは離散コサイン変換(DCT)を用いて周波数空間のモデルパラメータを表現し、効率的な圧縮と通信オーバーヘッドの低減を実現している。我々は,3つの最先端FLベースラインとの比較研究を用いて,FedFT手法の4つのデータセット上での汎用性を実証した。
論文参考訳（メタデータ） (2024-09-08T23:05:35Z)
ISO: Overlap of Computation and Communication within Seqenence For LLM Inference [8.616769297336708]
本稿では,シーケンスレベルで動作する計算通信重複に対する新しい戦略を提案する。 30b/70bモデルを用いて実験を行った結果,効率が著しく向上した。
論文参考訳（メタデータ） (2024-09-04T05:22:17Z)
High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文参考訳（メタデータ） (2024-07-08T19:34:39Z)
SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。プルーニングプロセス自体を最適化するためには、パラメータの代わりにサーバとクライアントの間でしきい値だけが通信される。グローバルしきい値は、集約されたパラメータの重要度を抽出することで、モデルパラメータの更新に使用される。
論文参考訳（メタデータ） (2024-06-01T13:10:35Z)
UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。 Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文参考訳（メタデータ） (2022-12-08T18:59:57Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Synthesizing Collective Communication Algorithms for Heterogeneous Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。 TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。 TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文参考訳（メタデータ） (2021-11-08T23:20:52Z)
Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。 DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文参考訳（メタデータ） (2020-10-18T01:44:42Z)
Straggler-aware Distributed Learning: Communication Computation Latency Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文参考訳（メタデータ） (2020-04-10T08:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。