Fugu-MT 論文翻訳(概要): SPD: Sync-Point Drop for efficient tensor parallelism of Large Language Models

論文の概要: SPD: Sync-Point Drop for efficient tensor parallelism of Large Language Models

arxiv url: http://arxiv.org/abs/2502.20727v1
Date: Fri, 28 Feb 2025 05:20:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.646555
Title: SPD: Sync-Point Drop for efficient tensor parallelism of Large Language Models
Title（参考訳）: SPD: Sync-Point Dropによる大規模言語モデルの効率的なテンソル並列化
Authors: Han-Byul Kim, Duc Hoang, Arnav Kundu, Mohammad Samragh, Minsik Cho,
Abstract要約: 我々は、注意出力に同期を選択的にドロップすることで、テンソル並列性における通信オーバーヘッドを低減するために、Sync-Point Drop (SPD)を導入する。 SPDは8つのGPU上でのLLaMA2-70B推論に対して、全体の推論遅延を約20%削減し、1%の精度のレグレッションを提供した。
参考スコア（独自算出の注目度）: 6.065998616707588
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the rapid expansion in the scale of large language models (LLMs), enabling efficient distributed inference across multiple computing units has become increasingly critical. However, communication overheads from popular distributed inference techniques such as Tensor Parallelism pose a significant challenge to achieve scalability and low latency. Therefore, we introduce a novel optimization technique, Sync-Point Drop (SPD), to reduce communication overheads in tensor parallelism by selectively dropping synchronization on attention outputs. In detail, we first propose a block design that allows execution to proceed without communication through SPD. Second, we apply different SPD strategies to attention blocks based on their sensitivity to the model accuracy. The proposed methods effectively alleviate communication bottlenecks while minimizing accuracy degradation during LLM inference, offering a scalable solution for diverse distributed environments: SPD offered about 20% overall inference latency reduction with < 1% accuracy regression for LLaMA2-70B inference over 8 GPUs.
Abstract（参考訳）: 大規模言語モデル(LLM)のスケールが急速に拡大するにつれ、複数の計算ユニットにまたがる効率的な分散推論の実現がますます重要になっている。しかし、Tensor Parallelismのような一般的な分散推論技術からの通信オーバーヘッドは、スケーラビリティと低レイテンシを実現する上で大きな課題となる。そこで本研究では,注目出力に同期を選択的にドロップすることで,テンソル並列性における通信オーバーヘッドを低減するための新しい最適化手法,Sync-Point Drop (SPD)を提案する。本稿ではまず,SPDを介して通信することなく実行を進行させるブロック設計を提案する。第2に、モデル精度に対する感度に基づいて、異なるSPD戦略をアテンションブロックに適用する。 SPDは,LLaMA2-70Bの8つのGPU上での予測精度を約20%削減し,全体の推定遅延を約20%削減した。

関連論文リスト

Joint Optimization of Model Partitioning and Resource Allocation for Anti-Jamming Collaborative Inference Systems [52.842088497389746]
この手紙は、悪意のあるジャマーの存在下での、アンチジャミングの協調推論システムに焦点を当てている。まず、ジャミングとDNNパーティショニングがデータ回帰による推測精度に与える影響を解析する。問題を3つのサブプロブレムに分解する,効率的な交互最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2026-03-03T03:52:52Z)
Collaborative Large Language Model Inference via Resource-Aware Parallel Speculative Decoding [6.130486652666936]
投機的復号化は、モバイルデバイスの軽量ドラフトモデルとエッジサーバの強力なターゲットモデルとの間にトークン生成を分割することで、有望なソリューションを提供する。本稿では,効率的な並列投機的復号化を支援するために,ユーザアソシエーションとリソースアロケーションを協調的に最適化する統合フレームワークを初めて提案する。その結果,提案手法は推定精度を損なうことなく,最大28.0%,平均23.7%のレイテンシ削減を実現していることがわかった。
論文参考訳（メタデータ） (2025-11-03T16:04:44Z)
CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2025-08-15T07:49:22Z)
Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文参考訳（メタデータ） (2025-05-29T19:59:18Z)
DES-LOC: Desynced Low Communication Adaptive Optimizers for Training Foundation Models [19.378834752753693]
ローカルSGDのような既存の頻繁な通信方式は、追加状態のため、自明に適用できない。 Desynced Low Communication Adaptives (DES-LOC)を提案する。 DES-LOCは、ファンデーションモデルトレーニングのためのスケーラブルで、帯域効率が高く、フォールトトレラントなソリューションを提供する。
論文参考訳（メタデータ） (2025-05-28T16:32:33Z)
Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference [14.805702987440512]
我々は、推論中にテンソル並列通信のボトルネックを軽減するために設計された、新しい低ビット圧縮技術であるFlash Communicationを紹介する。提案手法は,ノード内通信速度を3倍以上に向上し,モデル精度を犠牲にすることなく,第1トーケンを2倍に削減する。
論文参考訳（メタデータ） (2024-12-06T11:29:32Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
ACCO: Accumulate While You Communicate for Communication-Overlapped Sharded LLM Training [16.560270624096706]
我々は,分散LLM学習のためのメモリ効率最適化アルゴリズムである textbfCOmmunicate (acco) における textbfACcumulate を提案する。新しい処理を計算しながら遅延勾配を同期させることで、アイドル時間を短縮し、異種ハードウェアをサポートする。 ZeRO-1と比較して、我々のアプローチは大幅に高速で、異種ハードウェアで効果的にスケールできる。
論文参考訳（メタデータ） (2024-06-03T08:23:45Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2023-03-26T16:09:48Z)
Design and Prototyping Distributed CNN Inference Acceleration in Edge Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文参考訳（メタデータ） (2022-11-24T19:48:30Z)
Predictive GAN-powered Multi-Objective Optimization for Hybrid Federated Split Learning [56.125720497163684]
無線ネットワークにおけるハイブリッド・フェデレーション・スプリット・ラーニング・フレームワークを提案する。ラベル共有のないモデル分割のための並列計算方式を設計し,提案方式が収束速度に与える影響を理論的に解析する。
論文参考訳（メタデータ） (2022-09-02T10:29:56Z)
Receptive Field-based Segmentation for Distributed CNN Inference Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文参考訳（メタデータ） (2022-07-22T18:38:11Z)
Over-the-Air Federated Learning via Second-Order Optimization [37.594140209854906]
フェデレートラーニング(FL)は、無線ネットワーク上でのタスク指向のデータトラフィックを、限られた無線リソースによって引き起こす可能性がある。本稿では,通信ラウンドを同時に削減し,低レイテンシなグローバルモデルアグリゲーションを実現するために,空対2次フェデレーション最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-29T12:39:23Z)
SPDY: Accurate Pruning with Speedup Guarantees [29.284147465251685]
SPDYは、所望の推論スピードアップを達成するために、レイヤーワイドのスパシティターゲットを自動的に決定する新しい圧縮手法である。また,SPDYは,ワンショットおよび段階的なプルーニングシナリオにおいて,既存の戦略と比較して高い精度を回復しつつ,スピードアップを保証していることを示す。また、非常に少ないデータでプルーニングを行うという最近提案されたタスクにアプローチを拡張し、GPUをサポートする2:4のスパーシティパターンにプルーニングする際に最もよく知られた精度回復を実現する。
論文参考訳（メタデータ） (2022-01-31T10:14:31Z)
Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文参考訳（メタデータ） (2020-10-08T15:27:50Z)
LCP: A Low-Communication Parallelization Method for Fast Neural Network Inference in Image Recognition [33.581285906182075]
そこで本研究では, ほぼ独立な複数の枝と狭い枝からなるモデルを用いた低通信並列化手法を提案する。当社では,AWSインスタンス,Raspberry Pi,PYNQボードという,3つの分散システムにLCPモデルをデプロイしています。 LCPモデルは、オリジナルのモデルと比べて56倍と7倍の平均的なスピードアップを達成し、平均的なスピードアップを33倍に改善することができた。
論文参考訳（メタデータ） (2020-03-13T19:52:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。