論文の概要: ISO: Overlap of Computation and Communication within Seqenence For LLM Inference
- arxiv url: http://arxiv.org/abs/2409.11155v1
- Date: Wed, 4 Sep 2024 05:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:12:27.989246
- Title: ISO: Overlap of Computation and Communication within Seqenence For LLM Inference
- Title(参考訳): ISO: LLM推論のためのシーケンス内の計算と通信のオーバーラップ
- Authors: Bin Xiao, Lei Su,
- Abstract要約: 本稿では,シーケンスレベルで動作する計算通信重複に対する新しい戦略を提案する。
30b/70bモデルを用いて実験を行った結果,効率が著しく向上した。
- 参考スコア(独自算出の注目度): 8.616769297336708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of Large Language Model (LLM) inference, the inherent structure of transformer models coupled with the multi-GPU tensor parallelism strategy leads to a sequential execution of computation and communication. This results in substantial underutilization of computing resources during the communication phase. To mitigate this inefficiency, various techniques have been developed to optimize the use of computational power throughout the communication process. These strategies primarily involve overlapping matrix computations and communications, as well as interleaving micro-batches across different requests. Nonetheless, these approaches either fall short of achieving ideal overlap or impose certain limitations on their application. To overcome these challenges, this paper introduces a novel strategy for computation-communication overlap that operates at the sequence level. This method not only enhances the degree of overlap but also minimizes the constraints on its applicability. Experimental evaluations conducted using 30b/70b models have demonstrated significant improvements in efficiency. Specifically, the proposed technique has been shown to reduce time consumption by approximately 35% on 4090 GPU and by roughly 15% on A800 GPU during the prefill stage of LLM inference.
- Abstract(参考訳): 大規模言語モデル(LLM)推論の領域では、マルチGPUテンソル並列化戦略と組み合わさったトランスフォーマーモデル固有の構造が、計算と通信のシーケンシャルな実行に繋がる。
これにより、通信フェーズにおけるコンピューティングリソースのかなりの未利用化が実現される。
この非効率性を軽減するため、通信プロセス全体にわたって計算パワーの使用を最適化する様々な技術が開発されている。
これらの戦略は主に、行列計算と通信の重複と、異なる要求にまたがるマイクロバッチのインターリーブを含む。
それにもかかわらず、これらのアプローチは理想的な重複を達成できないか、アプリケーションに一定の制限を課すかのどちらかです。
本稿では,これらの課題を克服するために,シーケンスレベルで動作する計算通信重複に対する新しい戦略を提案する。
この方法は重なり合いの度合いを高めるだけでなく、適用性に対する制約を最小限にする。
30b/70bモデルを用いて実験を行った結果,効率が著しく向上した。
具体的には、LLM推論のプリフィル段階において、4090 GPUで約35%、A800 GPUで約15%の時間消費を削減できることが示されている。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Mnemosyne: Parallelization Strategies for Efficiently Serving Multi-Million Context Length LLM Inference Requests Without Approximations [8.881243419237608]
本稿では,対話型長期コンテキスト推論のための3つの重要なイノベーションを提案する。
これらは適応的なチャンキングで、混合、シーケンスパイプライン並列(SPP)、キャッシュ並列(KVP)のプリフィルオーバーヘッドを削減する。
これらのコントリビューションは3D戦略に統合され、Mnemosyneは対話的推論を少なくとも1000万トークンまで拡張し、並列処理で高いスループットを実現することができる。
論文 参考訳(メタデータ) (2024-09-25T18:21:05Z) - Geometric Clustering for Hardware-Efficient Implementation of Chromatic Dispersion Compensation [2.8870882078316855]
本稿では,コヒーレント受信機のCDCフィルタにおけるタップオーバーラップ効果に関する理論的解析を行う。
本稿では,この概念に基づく新しい時間領域クラスタ化等化器(TDCE)技術を紹介する。
我々は,繊維長最大640kmのハードウェアで実装したTDCEの並列化手法を開発した。
論文 参考訳(メタデータ) (2024-09-16T15:48:05Z) - ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文 参考訳(メタデータ) (2024-06-12T02:57:41Z) - ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training [16.560270624096706]
大規模言語モデルの分散学習に適したメモリ効率最適化アルゴリズムを提案する。
本手法は、勾配計算と通信の並列実行に固有の1ステップ遅れを軽減する新しい手法に依存する。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts [4.629608387540524]
並列戦略を重畳した新しいショートカット接続型MoE(ScMoE)アーキテクチャを提案する。
ScMoEは計算で70%から100%のオーバラップを可能にする。
ScMoEアーキテクチャに基づいて、メモリ制限推論を容易にする専門家のオフロード戦略をさらに実装する。
論文 参考訳(メタデータ) (2024-04-07T17:17:23Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - AsySQN: Faster Vertical Federated Learning Algorithms with Better
Computation Resource Utilization [159.75564904944707]
垂直連合学習(VFL)のための非同期準ニュートン(AsySQN)フレームワークを提案する。
提案アルゴリズムは、逆ヘッセン行列を明示的に計算することなく、近似して降下ステップをスケールする。
本稿では,非同期計算を採用することにより,計算資源の有効利用が期待できることを示す。
論文 参考訳(メタデータ) (2021-09-26T07:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。