論文の概要: StreamFusion: Scalable Sequence Parallelism for Distributed Inference of Diffusion Transformers on GPUs
- arxiv url: http://arxiv.org/abs/2601.20273v1
- Date: Wed, 28 Jan 2026 05:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.78477
- Title: StreamFusion: Scalable Sequence Parallelism for Distributed Inference of Diffusion Transformers on GPUs
- Title(参考訳): StreamFusion: GPU上の拡散変換器の分散推論のためのスケーラブルシーケンス並列処理
- Authors: Jiacheng Yang, Jun Wu, Yaoyao Ding, Zhiying Xu, Yida Wang, Gennady Pekhimenko,
- Abstract要約: ディフュージョントランスフォーマー(DiT)は、高品質の画像やビデオ生成において、ますます普及している。
StreamFusionは、トポロジー対応の効率的なDiTサービスエンジンである。
私たちの実験では、StreamFusionが最先端のアプローチを平均1.35タイム(最大1.77タイム)で上回ります。
- 参考スコア(独自算出の注目度): 8.844450350128362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) have gained increasing adoption in high-quality image and video generation. As demand for higher-resolution images and longer videos increases, single-GPU inference becomes inefficient due to increased latency and large activation sizes. Current frameworks employ sequence parallelism (SP) techniques such as Ulysses Attention and Ring Attention to scale inference. However, these implementations have three primary limitations: (1) suboptimal communication patterns for network topologies on modern GPU machines, (2) latency bottlenecks from all-to-all operations in inter-machine communication, and (3) GPU sender-receiver synchronization and computation overheads from using two-sided communication libraries. To address these issues, we present StreamFusion, a topology-aware efficient DiT serving engine. StreamFusion incorporates three key innovations: (1) a topology-aware sequence parallelism technique that accounts for inter- and intra-machine bandwidth differences, (2) Torus Attention, a novel SP technique enabling overlapping of inter-machine all-to-all operations with computation, and (3) a one-sided communication implementation that minimizes GPU sender-receiver synchronization and computation overheads. Our experiments demonstrate that StreamFusion outperforms the state-of-the-art approach by an average of $1.35\times$ (up to $1.77\times$).
- Abstract(参考訳): ディフュージョントランスフォーマー(DiT)は、高品質の画像やビデオ生成において、ますます普及している。
高解像度画像の需要が増加し、ビデオが長くなるにつれて、レイテンシの増加とアクティベーションサイズが大きいため、シングルGPU推論は非効率になる。
現在のフレームワークでは、推論をスケールするためにUlysses AttentionやRing Attentionといったシーケンス並列(SP)技術を採用している。
しかし、これらの実装には、(1)現代のGPUマシンにおけるネットワークトポロジの最適下層通信パターン、(2)マシン間通信における全操作からのレイテンシボトルネック、(3)GPU送信者-受信者同期と2側通信ライブラリによる計算オーバーヘッドの3つの主な制限がある。
これらの問題に対処するために、トポロジ対応の効率的なDiTサービスエンジンであるStreamFusionを提案する。
StreamFusionには,(1)機械間および機械間帯域の差を考慮に入れたトポロジ対応シーケンス並列化技術,(2)トーラスアテンション,計算処理によるマシン間全演算の重複を可能にする新しいSP技術,(3)GPU送信者/受信者同期と計算オーバーヘッドを最小化する一方的な通信実装,の3つの革新が含まれている。
私たちの実験では、StreamFusionが最先端のアプローチを平均1.35\times$(最大1.77\times$)で上回ります。
関連論文リスト
- Enabling Disaggregated Multi-Stage MLLM Inference via GPU-Internal Scheduling and Resource Sharing [16.063514680699576]
MLLM(Multimodal large language model)は、3段階のパイプラインを通して視覚的理解を拡張する。
マルチモーダル前処理、特にビデオデコードがタイム・ツー・ファースト・トーケン(TTFT)を支配している
我々は、エンドツーエンドのMLLMパイプラインを共同で最適化する2つの補完設計であるFlashCodecとUnifiedServeを紹介する。
論文 参考訳(メタデータ) (2025-12-19T13:40:13Z) - GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - DeepCoT: Deep Continual Transformers for Real-Time Inference on Data Streams [63.27233749591346]
トランスフォーマーベースのモデルは、ますます複雑なタスクに取り組むために、そのサイズとパラメータ数を劇的に増加させてきた。
ストリームデータ推論は通常、スライディング時間ウィンドウ上で実行され、非常に冗長な計算に繋がる。
提案するDeep Continual Transformer(DeepCoT)は冗長性のないエンコーダのみのモデルであり,最小限の変更で既存のディープエンコーダアーキテクチャに適用できる。
論文 参考訳(メタデータ) (2025-11-21T16:15:43Z) - PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling [18.079843329153412]
拡散トランス (DiT) ベースのモデルでは、マーク可能な能力が実証されている。
しかし、彼らの実践的なデプロイメントは、推論速度の遅いことと、メモリ消費の増大によって妨げられている。
ビデオ生成を高速化するために,PipeDiTという新しいパイプラインフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-15T06:46:40Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing [4.589472292598182]
細調整された大規模言語モデル(LLM)は、その厳密なスケールのため、リソース集約型のままである。
LLMの分散ゼロオーダー微調整のためのメモリ効率のよいフレームワークであるDistZO2を提案する。
論文 参考訳(メタデータ) (2025-07-03T22:53:34Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - xDiT: an Inference Engine for Diffusion Transformers (DiTs) with Massive Parallelism [5.704297874096985]
拡散モデルは高品質の画像やビデオを生成する上で重要な要素である。
本稿では,DiTの総合的並列推論エンジンであるxDiTを紹介する。
特に、Ethernetに接続されたGPUクラスタ上でDiTsのスケーラビリティを最初に示すのは、私たちです。
論文 参考訳(メタデータ) (2024-11-04T01:40:38Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - PipeFusion: Patch-level Pipeline Parallelism for Diffusion Transformers Inference [5.704297874096985]
PipeFusionは、複数のGPUでイメージをパッチとモデルレイヤに分割する。
通信と計算を効率的にオーケストレーションするために、パッチレベルのパイプライン並列戦略を採用している。
論文 参考訳(メタデータ) (2024-05-23T11:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。