論文の概要: Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2412.04964v2
- Date: Wed, 11 Dec 2024 13:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:43.668432
- Title: Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference
- Title(参考訳): Flash通信: 高速な大規模言語モデル推論のためのテンソル並列化ボット
- Authors: Qingyuan Li, Bo Zhang, Liang Ye, Yifan Zhang, Wei Wu, Yerui Sun, Lin Ma, Yuchen Xie,
- Abstract要約: 我々は、推論中にテンソル並列通信のボトルネックを軽減するために設計された、新しい低ビット圧縮技術であるFlash Communicationを紹介する。
提案手法は,ノード内通信速度を3倍以上に向上し,モデル精度を犠牲にすることなく,第1トーケンを2倍に削減する。
- 参考スコア(独自算出の注目度): 14.805702987440512
- License:
- Abstract: The ever-increasing sizes of large language models necessitate distributed solutions for fast inference that exploit multi-dimensional parallelism, where computational loads are split across various accelerators such as GPU clusters. However, this approach often introduces significant communication overhead, especially on devices with limited bandwidth. In this paper, we introduce Flash Communication, a novel low-bit compression technique designed to alleviate the tensor-parallelism communication bottleneck during inference. Our method substantially boosts intra-node communication speed by more than 3x and reduces the time-to-first-token by 2x, with nearly no sacrifice in model accuracy. Extensive experiments on various up-to-date LLMs demonstrate the effectiveness of our approach.
- Abstract(参考訳): 大規模言語モデルの絶え間なく増加するサイズは、GPUクラスタのような様々なアクセラレータで計算負荷が分割される多次元並列性を利用する高速な推論のために、分散ソリューションを必要とする。
しかし、このアプローチは、特に帯域幅が限られているデバイスにおいて、大きな通信オーバーヘッドをもたらすことが多い。
本稿では,推論時のテンソル並列通信ボトルネックを軽減するために設計された,新しい低ビット圧縮技術であるFlash Communicationを紹介する。
提案手法は,ノード内通信速度を3倍以上に向上し,モデル精度を犠牲にすることなく,第1トーケンを2倍に削減する。
各種LLMの大規模実験により,本手法の有効性が示された。
関連論文リスト
- LV-XAttn: Distributed Cross-Attention for Long Visual Inputs in Multimodal Large Language Models [1.3943553944889038]
LV-XAttnは,通信オーバーヘッドを最小限に抑えた,分散的かつ正確なクロスアテンション機構である。
LV-XAttnは、既存のアプローチと比較して最大5.58$times$ end-to-endのスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-04T15:24:16Z) - DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。
本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。
実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文 参考訳(メタデータ) (2024-11-29T17:31:47Z) - Communication Compression for Tensor Parallel LLM Inference [1.199955563466263]
大規模言語モデル(LLM)は人工知能のフロンティアを推し進めてきたが、数十億のパラメータと操作で構成されている。
高速な推論レイテンシを実現するため、LLMはさまざまなModel Parallelism戦略を通じて、複数のハードウェアアクセラレータにデプロイされる。
そこで本稿では, 並列化方式について詳細に検討し, 加速器間通信の圧縮による遅延低減を提案する。
論文 参考訳(メタデータ) (2024-11-14T15:19:01Z) - ISO: Overlap of Computation and Communication within Seqenence For LLM Inference [8.616769297336708]
本稿では,シーケンスレベルで動作する計算通信重複に対する新しい戦略を提案する。
30b/70bモデルを用いて実験を行った結果,効率が著しく向上した。
論文 参考訳(メタデータ) (2024-09-04T05:22:17Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Distributed Training of Large Graph Neural Networks with Variable Communication Rates [71.7293735221656]
大きなグラフ上でグラフニューラルネットワーク(GNN)をトレーニングすることは、大きなメモリとコンピューティング要件のために、ユニークな課題を提示する。
グラフを複数のマシンに分割する分散GNNトレーニングは、大きなグラフ上でGNNをトレーニングするための一般的なアプローチである。
本稿では,学習モデルの精度を損なうことなく,分散GNNトレーニングにおける通信量を削減するための可変圧縮方式を提案する。
論文 参考訳(メタデータ) (2024-06-25T14:57:38Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。
ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文 参考訳(メタデータ) (2023-02-20T08:37:44Z) - Provably Doubly Accelerated Federated Learning: The First Theoretically
Successful Combination of Local Training and Compressed Communication [7.691755449724637]
分散最適化とフェデレート学習のための最初のアルゴリズムを提案する。
我々のアルゴリズムは2倍の加速速度で直線的に正確な解に収束する。
論文 参考訳(メタデータ) (2022-10-24T14:13:54Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - A Linearly Convergent Algorithm for Decentralized Optimization: Sending
Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。
ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。
本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-11-03T13:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。