Fugu-MT 論文翻訳(概要): Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference

論文の概要: Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference

arxiv url: http://arxiv.org/abs/2412.04964v2
Date: Wed, 11 Dec 2024 13:27:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 14:44:55.682188
Title: Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference
Title（参考訳）: Flash通信: 高速な大規模言語モデル推論のためのテンソル並列化ボット
Authors: Qingyuan Li, Bo Zhang, Liang Ye, Yifan Zhang, Wei Wu, Yerui Sun, Lin Ma, Yuchen Xie,
Abstract要約: 我々は、推論中にテンソル並列通信のボトルネックを軽減するために設計された、新しい低ビット圧縮技術であるFlash Communicationを紹介する。提案手法は,ノード内通信速度を3倍以上に向上し,モデル精度を犠牲にすることなく,第1トーケンを2倍に削減する。
参考スコア（独自算出の注目度）: 14.805702987440512
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ever-increasing sizes of large language models necessitate distributed solutions for fast inference that exploit multi-dimensional parallelism, where computational loads are split across various accelerators such as GPU clusters. However, this approach often introduces significant communication overhead, especially on devices with limited bandwidth. In this paper, we introduce Flash Communication, a novel low-bit compression technique designed to alleviate the tensor-parallelism communication bottleneck during inference. Our method substantially boosts intra-node communication speed by more than 3x and reduces the time-to-first-token by 2x, with nearly no sacrifice in model accuracy. Extensive experiments on various up-to-date LLMs demonstrate the effectiveness of our approach.
Abstract（参考訳）: 大規模言語モデルの絶え間なく増加するサイズは、GPUクラスタのような様々なアクセラレータで計算負荷が分割される多次元並列性を利用する高速な推論のために、分散ソリューションを必要とする。しかし、このアプローチは、特に帯域幅が限られているデバイスにおいて、大きな通信オーバーヘッドをもたらすことが多い。本稿では,推論時のテンソル並列通信ボトルネックを軽減するために設計された,新しい低ビット圧縮技術であるFlash Communicationを紹介する。提案手法は,ノード内通信速度を3倍以上に向上し,モデル精度を犠牲にすることなく,第1トーケンを2倍に削減する。各種LLMの大規模実験により,本手法の有効性が示された。

関連論文リスト

Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [16.99620863197586]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。
論文参考訳（メタデータ） (2025-05-27T17:39:39Z)
Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism [18.655659400456848]
拡散モデルは、画像、ビデオ、音声合成を含む様々なモードにわたる強力な生成モデルのクラスとして登場した。本論文では, 拡散推論を並列化する手法である textbfParaStep を提案する。 ParaStep は SVD の textbf3.88$times$、CogVideoX-2b の textbf2.43$times$、textbf6.56$times
論文参考訳（メタデータ） (2025-05-20T06:58:40Z)
FlashOverlap: A Lightweight Design for Efficiently Overlapping Communication and Computation [6.284874558004134]
我々は,タイルワイドオーバーラップ,干渉のない計算,通信非依存を特徴とする軽量な設計であるFlashOverlapを提案する。実験の結果、このような軽量な設計は最大1.65倍のスピードアップを実現しており、ほとんどの場合、既存の作業よりも優れていた。
論文参考訳（メタデータ） (2025-04-28T06:37:57Z)
SPD: Sync-Point Drop for efficient tensor parallelism of Large Language Models [6.065998616707588]
我々は、注意出力に同期を選択的にドロップすることで、テンソル並列性における通信オーバーヘッドを低減するために、Sync-Point Drop (SPD)を導入する。 SPDは8つのGPU上でのLLaMA2-70B推論に対して、全体の推論遅延を約20%削減し、1%の精度のレグレッションを提供した。
論文参考訳（メタデータ） (2025-02-28T05:20:48Z)
DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文参考訳（メタデータ） (2024-11-29T17:31:47Z)
Communication Compression for Tensor Parallel LLM Inference [1.199955563466263]
大規模言語モデル(LLM)は人工知能のフロンティアを推し進めてきたが、数十億のパラメータと操作で構成されている。高速な推論レイテンシを実現するため、LLMはさまざまなModel Parallelism戦略を通じて、複数のハードウェアアクセラレータにデプロイされる。そこで本稿では, 並列化方式について詳細に検討し, 加速器間通信の圧縮による遅延低減を提案する。
論文参考訳（メタデータ） (2024-11-14T15:19:01Z)
High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文参考訳（メタデータ） (2024-07-08T19:34:39Z)
LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。 LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文参考訳（メタデータ） (2024-03-07T09:22:50Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文参考訳（メタデータ） (2023-02-20T08:37:44Z)
Optimus-CC: Efficient Large NLP Model Training with 3D Parallelism Aware Communication Compression [8.591088380355252]
攻撃的な通信圧縮を備えた大規模NLPモデルのための高速でスケーラブルな分散トレーニングフレームワークOptimus-CCを提案する。本稿では,圧縮によるモデル品質低下を回避する手法を提案する。我々は、GPUクラスタ上でソリューションを実証し、モデル品質を犠牲にすることなく、分散トレーニングのためのベースラインの最先端ソリューションから優れたスピードアップを実現する。
論文参考訳（メタデータ） (2023-01-24T06:07:55Z)
Provably Doubly Accelerated Federated Learning: The First Theoretically Successful Combination of Local Training and Compressed Communication [7.691755449724637]
分散最適化とフェデレート学習のための最初のアルゴリズムを提案する。我々のアルゴリズムは2倍の加速速度で直線的に正確な解に収束する。
論文参考訳（メタデータ） (2022-10-24T14:13:54Z)
Correlating sparse sensing for large-scale traffic speed estimation: A Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文参考訳（メタデータ） (2022-10-21T07:25:57Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
A Linearly Convergent Algorithm for Decentralized Optimization: Sending Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文参考訳（メタデータ） (2020-11-03T13:35:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。