論文の概要: Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2412.04964v1
- Date: Fri, 06 Dec 2024 11:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:29.569297
- Title: Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference
- Title(参考訳): Flash通信: 高速な大規模言語モデル推論のためのテンソル並列化ボット
- Authors: Qingyuan Li, Bo Zhang, Liang Ye, Yifan Zhang, Wei Wu, Yerui Sun, Lin Ma, Yuchen Xie,
- Abstract要約: emphFlash Communicationは、推論時のテンソル並列通信ボトルネックを軽減するために設計された低ビット圧縮技術である。
提案手法は,ノード内通信速度を3倍以上に向上し,モデル精度を犠牲にすることなく2倍に向上する。
- 参考スコア(独自算出の注目度): 14.805702987440512
- License:
- Abstract: The ever-increasing sizes of large language models necessitate distributed solutions for fast inference that exploit multi-dimensional parallelism, where computational loads are split across various accelerators such as GPU clusters. However, this approach often introduces significant communication overhead, especially on devices with limited bandwidth. In this paper, we introduce \emph{Flash Communication}, a novel low-bit compression technique designed to alleviate the tensor-parallelism communication bottleneck during inference. Our method substantially boosts intra-node communication speed by more than 3x and reduces the \emph{time-to-first-token} by 2x, with nearly no sacrifice in model accuracy. Extensive experiments on various up-to-date LLMs demonstrate the effectiveness of our approach.
- Abstract(参考訳): 大規模言語モデルの絶え間なく増加するサイズは、GPUクラスタのような様々なアクセラレータで計算負荷が分割される多次元並列性を利用する高速な推論のために、分散ソリューションを必要とする。
しかし、このアプローチは、特に帯域幅が限られているデバイスにおいて、大きな通信オーバーヘッドをもたらすことが多い。
本稿では,推論時のテンソル並列通信ボトルネックを軽減するために設計された,新しい低ビット圧縮手法である \emph{Flash Communication} を紹介する。
提案手法は,ノード内通信速度を3倍以上に向上し,モデルの精度を犠牲にすることなく,emph{time-to-first-token}を2倍に削減する。
各種LLMの大規模実験により,本手法の有効性が示された。
関連論文リスト
- Communication Compression for Tensor Parallel LLM Inference [1.199955563466263]
大規模言語モデル(LLM)は人工知能のフロンティアを推し進めてきたが、数十億のパラメータと操作で構成されている。
高速な推論レイテンシを実現するため、LLMはさまざまなModel Parallelism戦略を通じて、複数のハードウェアアクセラレータにデプロイされる。
そこで本稿では, 並列化方式について詳細に検討し, 加速器間通信の圧縮による遅延低減を提案する。
論文 参考訳(メタデータ) (2024-11-14T15:19:01Z) - ISO: Overlap of Computation and Communication within Seqenence For LLM Inference [8.616769297336708]
本稿では,シーケンスレベルで動作する計算通信重複に対する新しい戦略を提案する。
30b/70bモデルを用いて実験を行った結果,効率が著しく向上した。
論文 参考訳(メタデータ) (2024-09-04T05:22:17Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。
ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文 参考訳(メタデータ) (2023-02-20T08:37:44Z) - Optimus-CC: Efficient Large NLP Model Training with 3D Parallelism Aware
Communication Compression [8.591088380355252]
攻撃的な通信圧縮を備えた大規模NLPモデルのための高速でスケーラブルな分散トレーニングフレームワークOptimus-CCを提案する。
本稿では,圧縮によるモデル品質低下を回避する手法を提案する。
我々は、GPUクラスタ上でソリューションを実証し、モデル品質を犠牲にすることなく、分散トレーニングのためのベースラインの最先端ソリューションから優れたスピードアップを実現する。
論文 参考訳(メタデータ) (2023-01-24T06:07:55Z) - Provably Doubly Accelerated Federated Learning: The First Theoretically
Successful Combination of Local Training and Compressed Communication [7.691755449724637]
分散最適化とフェデレート学習のための最初のアルゴリズムを提案する。
我々のアルゴリズムは2倍の加速速度で直線的に正確な解に収束する。
論文 参考訳(メタデータ) (2022-10-24T14:13:54Z) - Correlating sparse sensing for large-scale traffic speed estimation: A
Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。
次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-21T07:25:57Z) - A Linearly Convergent Algorithm for Decentralized Optimization: Sending
Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。
ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。
本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-11-03T13:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。