論文の概要: Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs
- arxiv url: http://arxiv.org/abs/2511.02168v1
- Date: Tue, 04 Nov 2025 01:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.767936
- Title: Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs
- Title(参考訳): マルチGPUパフォーマンス税の撤廃:効率的な分散LLMへのシステムアプローチ
- Authors: Octavian Alexandru Trifan, Karthik Sangaiah, Muhammad Awad, Muhammad Osama, Sumanth Gudaparthi, Alexandru Nicolau, Alexander Veidenbaum, Ganesh Dasika,
- Abstract要約: 分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
- 参考スコア(独自算出の注目度): 61.953548065938385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) continue to scale, their workloads increasingly rely on distributed execution across multiple GPUs. However, the conventional bulk synchronous parallel~(BSP) model used in such settings introduces significant performance inefficiencies. To characterize these bottlenecks, we introduce the ''Three Taxes'' (Bulk Synchronous, Inter-Kernel Data Locality, and Kernel Launch Overhead) as an analytical framework. We propose moving beyond the rigid BSP model to address key inefficiencies in distributed GPU execution. By exploiting libraries like Iris for Triton, we gain access to in-kernel communication primitives that enable the design of novel fine-grained programming patterns, offering greater flexibility and performance than traditional BSP-based approaches. These patterns systematically eliminate the three taxes by creating direct, tile-level producer-consumer pipelines and replacing global barriers with fine-grained dataflow synchronization. Applying this methodology to critical kernels, from the foundational All-Gather + general matrix multiplication operation to the complex Flash Decode algorithm, we observe a 10-20% speedup in end-to-end latency over BSP-based approaches, establishing a more programmable and efficient paradigm for distributed LLM workloads.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケールアップが進むにつれ、ワークロードはますます、複数のGPUにわたる分散実行に依存している。
しかし、そのような設定で使用される従来のバルク同期並列〜(BSP)モデルは、大幅な性能低下をもたらす。
これらのボトルネックを特徴づけるために、分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を導入します。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
トリトンのためにIrisのようなライブラリを利用することで、カーネル内通信プリミティブにアクセスし、新しいきめ細かいプログラミングパターンの設計を可能にし、従来のBSPベースのアプローチよりも柔軟性とパフォーマンスを提供する。
これらのパターンは、直接タイルレベルのプロデューサ・コンシューマー・パイプラインを作成し、グローバル障壁をきめ細かいデータフロー同期に置き換えることで、3つの税金を体系的に排除する。
この方法論を、基本的なAll-Gather + GeneralMatrix乗算演算から複雑なFlash Decodeアルゴリズムまで、クリティカルカーネルに適用することにより、BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化が観察され、分散LLMワークロードに対してよりプログラム可能で効率的なパラダイムが確立される。
関連論文リスト
- MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - Scalable Engine and the Performance of Different LLM Models in a SLURM based HPC architecture [3.746889836344766]
本研究は、SLURM(Simple Linux Utility for Resource Management)に基づく高性能コンピューティングアーキテクチャについて詳述する。
動的リソーススケジューリングとコンテナ化のシームレスな統合は、CPU、GPU、メモリをマルチノードクラスタで効率的に管理するために活用されている。
その結果,大規模HPCインフラストラクチャ上でのLLM推論は,より効率的で応答性が高く,耐故障性に優れた。
論文 参考訳(メタデータ) (2025-08-25T09:11:27Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - LONGER: Scaling Up Long Sequence Modeling in Industrial Recommenders [23.70714095931094]
GPU効率の良いリコメンダのための長時間最適化されたtraNsformer。
オフラインのメトリクスとオンラインのA/Bテストでは、一貫して強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-07T13:54:26Z) - The Streaming Batch Model for Efficient and Fault-Tolerant Heterogeneous Execution [28.768566833298365]
異種バッチ推論パイプラインのスループットを2.5~12$times$で向上するストリーミングバッチシステムであるRay Dataを紹介します。
Ray Dataは、シングルノードMLデータローダと比較して、安定拡散のようなマルチモーダルモデルのトレーニングスループットを31%改善する。
論文 参考訳(メタデータ) (2025-01-16T19:54:01Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。