Fugu-MT 論文翻訳(概要): Communication-Efficient Multi-Device Inference Acceleration for Transformer Models

論文の概要: Communication-Efficient Multi-Device Inference Acceleration for Transformer Models

arxiv url: http://arxiv.org/abs/2505.19342v1
Date: Sun, 25 May 2025 22:16:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.061529
Title: Communication-Efficient Multi-Device Inference Acceleration for Transformer Models
Title（参考訳）: 変圧器モデルのための通信効率の良いマルチデバイス推論高速化
Authors: Xiao Liu, Lijun Zhang, Deepak Ganesan, Hui Guan,
Abstract要約: トランスフォーマーモデルは、多くのAIアプリケーションを動かすが、高い推論遅延に悩まされ、リアルタイム設定での使用が制限される。本稿では,トランスフォーマー推論を高速化する通信効率の高いフレームワークであるASTRAと,デバイス間通信の最小化を目的としたMixed-Precision Attention機構を提案する。 ASTRAはシングルデバイス推論で最大2.64倍のスピードアップを実現し、最先端のマルチデバイス推論で最大15.25倍のスピードアップを実現し、帯域幅は10Mbpsである。
参考スコア（独自算出の注目度）: 19.938589623698338
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer models power many AI applications but suffer from high inference latency, limiting their use in real-time settings. Multi-device inference can reduce latency by parallelizing computation. Yet, existing methods require high inter-device bandwidth, making them impractical for bandwidth-constrained environments. We propose ASTRA, a communication-efficient framework that accelerates Transformer inference through a novel integration of sequence parallelism and a Mixed-Precision Attention mechanism designed to minimize inter-device communication. ASTRA compresses non-local token embeddings via vector quantization and preserves task accuracy through two optimizations, Noise-Augmented Quantization and Distributed Class Tokens. Experiments on ViT and GPT2 across vision and NLP tasks show that ASTRA achieves up to 2.64X speedups over single-device inference and up to 15.25X speedups over state-of-the-art multi-device inferences, while operating under bandwidths as low as 10 Mbps. ASTRA is open-sourced at https://github.com/xl1990/Astra.
Abstract（参考訳）: トランスフォーマーモデルは、多くのAIアプリケーションを動かすが、高い推論遅延に悩まされ、リアルタイム設定での使用が制限される。マルチデバイス推論は計算を並列化することでレイテンシを低減することができる。しかし,既存手法ではデバイス間帯域幅が高いため,帯域幅に制約のある環境では実現不可能である。本稿では,トランスフォーマー推論を高速化する通信効率の高いフレームワークであるASTRAと,デバイス間通信の最小化を目的としたMixed-Precision Attention機構を提案する。 ASTRAはベクトル量子化による非局所トークン埋め込みを圧縮し、ノイズ増分量子化と分散クラストークンという2つの最適化を通じてタスクの精度を保存する。 ViTとGPT2の視覚およびNLPタスクによる実験では、ASTRAはシングルデバイス推論で最大2.64倍のスピードアップを実現し、最先端のマルチデバイス推論で最大15.25倍のスピードアップを実現し、帯域幅は10Mbpsである。 ASTRAはhttps://github.com/xl 1990/Astraでオープンソース化されている。

関連論文リスト

Communication-Efficient Federated Learning by Quantized Variance Reduction for Heterogeneous Wireless Edge Networks [55.467288506826755]
フェデレーテッド・ラーニング(FL)は、無線エッジネットワークにおけるローカル・プライバシ・アウェア・コラボレーティブ・モデルトレーニングの有効なソリューションとして認識されている。既存の通信効率の高いFLアルゴリズムは、デバイス間の大きなばらつきを低減できない。本稿では,高度分散還元方式に依存する新しい通信効率FLアルゴリズムであるFedQVRを提案する。
論文参考訳（メタデータ） (2025-01-20T04:26:21Z)
Communication Compression for Tensor Parallel LLM Inference [1.199955563466263]
大規模言語モデル(LLM)は人工知能のフロンティアを推し進めてきたが、数十億のパラメータと操作で構成されている。高速な推論レイテンシを実現するため、LLMはさまざまなModel Parallelism戦略を通じて、複数のハードウェアアクセラレータにデプロイされる。そこで本稿では, 並列化方式について詳細に検討し, 加速器間通信の圧縮による遅延低減を提案する。
論文参考訳（メタデータ） (2024-11-14T15:19:01Z)
PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculation [9.080650575731152]
PipeInferは、パイプライン化された投機的アクセラレーション技術で、トークン間のレイテンシを低減し、単一要求シナリオにおけるシステム利用を改善する。 PipeInferは、標準的な投機的推論よりも生成速度が2.15$times$改善されている。
論文参考訳（メタデータ） (2024-07-16T14:52:02Z)
Efficient Asynchronous Federated Learning with Sparsification and Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。 FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。 TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文参考訳（メタデータ） (2023-12-23T07:47:07Z)
AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel Training [22.107070114339038]
本稿では,エッジ協調パイプライン並列トレーニングを高速化するアクセラレーションスキームであるAccEPTを提案する。特に,異なるデバイスにおける各レイヤの遅延を正確に推定する軽量適応遅延予測器を提案する。数値計算の結果,提案手法により,エッジパイプラインの並列学習を最大3倍高速化できることがわかった。
論文参考訳（メタデータ） (2023-11-10T02:18:33Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文参考訳（メタデータ） (2022-08-12T04:51:49Z)
Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for 5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文参考訳（メタデータ） (2022-01-13T15:20:45Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。