論文の概要: Parallel Track Transformers: Enabling Fast GPU Inference with Reduced Synchronization
- arxiv url: http://arxiv.org/abs/2602.07306v1
- Date: Sat, 07 Feb 2026 01:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.563502
- Title: Parallel Track Transformers: Enabling Fast GPU Inference with Reduced Synchronization
- Title(参考訳): 並列トラックトランス:同期の低減による高速GPU推論の実現
- Authors: Chong Wang, Nan Du, Tom Gunter, Tao Lei, Kulin Seth, Senyu Tong, Jianyu Wang, Guoli Yin, Xiyou Zhou, Kelvin Zou, Ruoming Pang,
- Abstract要約: Parallel Track (PT) Transformerは、デバイス間の依存関係を最小限にするために再構成される新しいアーキテクチャパラダイムである。
その結果,最大15~30%の時間短縮,2~12%の時間短縮,最大31.90%のスループット向上が報告された。
- 参考スコア(独自算出の注目度): 19.97521786735984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient large-scale inference of transformer-based large language models (LLMs) remains a fundamental systems challenge, frequently requiring multi-GPU parallelism to meet stringent latency and throughput targets. Conventional tensor parallelism decomposes matrix operations across devices but introduces substantial inter-GPU synchronization, leading to communication bottlenecks and degraded scalability. We propose the Parallel Track (PT) Transformer, a novel architectural paradigm that restructures computation to minimize cross-device dependencies. PT achieves up to a 16x reduction in synchronization operations relative to standard tensor parallelism, while maintaining competitive model quality in our experiments. We integrate PT into two widely adopted LLM serving stacks-Tensor-RT-LLM and vLLM-and report consistent improvements in serving efficiency, including up to 15-30% reduced time to first token, 2-12% reduced time per output token, and up to 31.90% increased throughput in both settings.
- Abstract(参考訳): 変換器をベースとした大規模言語モデル(LLM)の大規模推論は,厳密なレイテンシとスループットの目標を満たすために,マルチGPU並列性を必要とすることが多いため,依然として基本的なシステム課題である。
従来のテンソル並列処理は、デバイス間での行列操作を分解するが、GPU間同期が大幅に導入され、通信ボトルネックとスケーラビリティが低下する。
デバイス間の依存関係を最小限に抑えるために計算を再構成する新しいアーキテクチャパラダイムであるParallel Track (PT) Transformerを提案する。
PTは、標準テンソル並列性に対して最大16倍の同期演算を達成し、実験では競合モデルの品質を維持した。
我々はPTを2つの広く採用されているLLMサービススタック – Tensor-RT-LLMとvLLM – に統合し,最大15~30%のファーストトークン,2~12%のアウトプットトークン,最大31.90%のスループットを含む,サービス効率の一貫して向上を報告した。
関連論文リスト
- Scaling State-Space Models on Multiple GPUs with Tensor Parallelism [0.24148976266903474]
選択状態空間モデル(SSM)は、大規模言語モデルにとって急速に魅力的なバックボーンとなっている。
しかし、デプロイメントでは、その推論性能は単一のGPUのメモリ容量、帯域幅、レイテンシ制限によって制限されることが多い。
本稿では,3つの実践的技術的課題に対処する,選択的SSM推論のための通信効率のよいTP設計法を提案する。
論文 参考訳(メタデータ) (2026-02-24T17:47:54Z) - AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism [54.8494905524997]
両方の並列処理軸をまたいだ非同期更新を導入し、コロケーション要求を緩和します。
スパース平均化と非同期更新の両方に対して収束保証を提供します。
大規模言語モデルを用いた実験により,本手法が完全同期ベースラインの性能と一致することを示した。
論文 参考訳(メタデータ) (2026-01-30T01:24:47Z) - DeepCoT: Deep Continual Transformers for Real-Time Inference on Data Streams [63.27233749591346]
トランスフォーマーベースのモデルは、ますます複雑なタスクに取り組むために、そのサイズとパラメータ数を劇的に増加させてきた。
ストリームデータ推論は通常、スライディング時間ウィンドウ上で実行され、非常に冗長な計算に繋がる。
提案するDeep Continual Transformer(DeepCoT)は冗長性のないエンコーダのみのモデルであり,最小限の変更で既存のディープエンコーダアーキテクチャに適用できる。
論文 参考訳(メタデータ) (2025-11-21T16:15:43Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - Communication-Efficient Multi-Device Inference Acceleration for Transformer Models [19.938589623698338]
トランスフォーマーモデルは、多くのAIアプリケーションを動かすが、高い推論遅延に悩まされ、リアルタイム設定での使用が制限される。
本稿では,トランスフォーマー推論を高速化する通信効率の高いフレームワークであるASTRAと,デバイス間通信の最小化を目的としたMixed-Precision Attention機構を提案する。
ASTRAはシングルデバイス推論で最大2.64倍のスピードアップを実現し、最先端のマルチデバイス推論で最大15.25倍のスピードアップを実現し、帯域幅は10Mbpsである。
論文 参考訳(メタデータ) (2025-05-25T22:16:59Z) - Ladder-residual: parallelism-aware architecture for accelerating large model inference with communication overlapping [36.71999572939612]
すべての残差ベースモデルに適用可能な,シンプルなアーキテクチャ変更であるLadder Residualを紹介する。
Ladder Residualをすべてのレイヤに適用することで、TPシャーディングを8デバイス以上使用することで、推論時にエンドツーエンドのウォールクロックを29%高速化することができる。
1Bおよび3Bラダー変換器をスクラッチからトレーニングし、標準の高密度変圧器ベースラインに匹敵する性能を観測する。
論文 参考訳(メタデータ) (2025-01-11T17:06:30Z) - Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference [8.527031391688283]
Krakenは、マルチデバイスシステムの効率的な推論のための標準的なTransformerアーキテクチャの進化である。
OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達する。
SuperGLUEベンチマークでテストすると、Krakenはモデルサイズで平均35.6%のタイム・トゥ・ファースト・トークンをスピードアップする。
論文 参考訳(メタデータ) (2024-08-14T20:24:03Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。