論文の概要: ChunkFlow: Communication-Aware Chunked Prefetching for Layerwise Offloading in Distributed Diffusion Transformer Inference
- arxiv url: http://arxiv.org/abs/2605.11335v1
- Date: Mon, 11 May 2026 23:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.480517
- Title: ChunkFlow: Communication-Aware Chunked Prefetching for Layerwise Offloading in Distributed Diffusion Transformer Inference
- Title(参考訳): ChunkFlow:分散拡散変換器推論における層別オフロードのための通信対応チャンクプリフェッチ
- Authors: Han Meng, Danny Willow Liu, Dong Li,
- Abstract要約: ChunkFlowは、GPUメモリのための通信対応でチャンク粒度のオフロードランタイムである。
SGLangの既存のレイヤワイド・オフロードよりも1.28倍のステップタイム・スピードアップを実現している。
ChunkFlowは変更可能なメモリレイテンシトレードオフを公開し、小さなワークロードレシエーションでほぼゼロのステップタイムオーバーヘッドを回復する。
- 参考スコア(独自算出の注目度): 13.062229091130115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layerwise offloading reduces the GPU memory footprint of large diffusion transformer (DiT) inference by prefetching upcoming layers from host memory, but its effectiveness hinges on hiding prefetch latency behind per-layer computation. This assumption breaks down when the per-GPU compute workload is small. Moreover, on PCIe-only nodes, prefetch and inter-GPU collective communications such as all-reduce and all-to-all contend on the shared PCIe path, exposing prefetch latency even when compute would otherwise hide it. We revisit layerwise offloading as a co-scheduling problem between prefetch and communication, guided by a first-order analytical model that predicts when prefetch can be hidden by computation. Building on this model, we design ChunkFlow, a communication-aware, chunk-granular offloading runtime that adaptively yields to collective communication and smoothly trades GPU memory for prefetch volume. On three representative diffusion transformers running on two H100 GPUs over PCIe with Ulysses sequence parallelism, ChunkFlow delivers up to 1.28x step-time speedup over SGLang's existing layerwise offloading, reduces peak GPU memory by up to 49% over the no-offload baseline at near-identical step time once the workload is large enough, and exposes a tunable memory-latency tradeoff that recovers near-zero step-time overhead in the small-workload regime.
- Abstract(参考訳): レイヤーワイズオフロードは、次のレイヤをホストメモリからプレフェッチすることで、大きな拡散トランスフォーマー(DiT)推論のGPUメモリフットプリントを低減するが、その有効性は、レイヤ毎の計算の背後にあるプリフェッチレイテンシを隠蔽することにある。
この仮定はGPU毎の計算負荷が小さくなると壊れる。
さらに、PCIeのみのノードでは、全リデュースやオールツーオールといったGPU間のグループ通信が共有PCIeパスと競合し、計算がそれを隠した場合でもプリフェッチレイテンシが露呈する。
我々は、プレフェッチと通信の協調スケジューリング問題として、プレフェッチが計算によって隠蔽される可能性があることを予測できる1次解析モデルを用いて、階層的にオフロードを再検討する。
このモデルに基づいて、我々はChunkFlowを設計する。ChunkFlowは、通信を意識した、チャンク粒のオフロードランタイムで、集団通信に適応的に出力し、プリフェッチボリュームのためにGPUメモリをスムーズに交換する。
Ulyssesシーケンス並列性を備えたPCIe上で2つのH100 GPU上で動作する3つの代表的拡散トランスフォーマーにおいて、ChunkFlowは、SGLangの既存のレイヤワイドオフロードよりも1.28倍のステップタイムスピードアップを実現し、ワークロードが十分に大きくなると、オフロードベースラインを最大49%上回るピークGPUメモリをほぼ同一のステップタイムで削減し、小さなワークロードレシージャでほぼゼロのステップタイムオーバーヘッドを回復するチューニング可能なメモリレイテンシトレードオフを公開する。
関連論文リスト
- Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。
この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。
本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文 参考訳(メタデータ) (2026-02-02T13:52:40Z) - Harvest: Opportunistic Peer-to-Peer GPU Caching for LLM Inference [0.0]
LLM(Large Language Model)推論は、計算スループットよりもGPUメモリ容量に制限されている。
本稿では,高帯域幅のピアツーピアGPU相互接続を利用したGPUキャッシュ管理フレームワークであるHarvestを紹介する。
本研究では、Harvestを用いて2つの広く使われている推論コンポーネントの検索を高速化することにより、2倍以上のスループットの大幅な高速化を示す。
論文 参考訳(メタデータ) (2026-01-30T21:29:04Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation [7.204881999658682]
キーバリューキャッシュは、大きな言語モデルの中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
既存の方法は、GPU計算をI/Oで重複させたり、CPU-GPUの不均一な実行を採用することで、これらの問題に対処しようとする。
本稿では,CPUが最初にアクティベーションの部分集合を転送する,効率的なI/O対応LPM推論手法であるKVPRを紹介する。
KVPRは、最先端のアプローチと比較して最大で35.8%のレイテンシと46.2%のスループットを実現している。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。