論文の概要: PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling
- arxiv url: http://arxiv.org/abs/2511.12056v1
- Date: Sat, 15 Nov 2025 06:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.573626
- Title: PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling
- Title(参考訳): PipeDiT:タスクパイプライニングとモデルデカップリングによるビデオ生成における拡散変換器の高速化
- Authors: Sijie Wang, Qiang Wang, Shaohuai Shi,
- Abstract要約: 拡散トランス (DiT) ベースのモデルでは、マーク可能な能力が実証されている。
しかし、彼らの実践的なデプロイメントは、推論速度の遅いことと、メモリ消費の増大によって妨げられている。
ビデオ生成を高速化するために,PipeDiTという新しいパイプラインフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.079843329153412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation has been advancing rapidly, and diffusion transformer (DiT) based models have demonstrated remark- able capabilities. However, their practical deployment is of- ten hindered by slow inference speeds and high memory con- sumption. In this paper, we propose a novel pipelining frame- work named PipeDiT to accelerate video generation, which is equipped with three main innovations. First, we design a pipelining algorithm (PipeSP) for sequence parallelism (SP) to enable the computation of latent generation and commu- nication among multiple GPUs to be pipelined, thus reduc- ing inference latency. Second, we propose DeDiVAE to de- couple the diffusion module and the variational autoencoder (VAE) module into two GPU groups, whose executions can also be pipelined to reduce memory consumption and infer- ence latency. Third, to better utilize the GPU resources in the VAE group, we propose an attention co-processing (Aco) method to further reduce the overall video generation latency. We integrate our PipeDiT into both OpenSoraPlan and Hun- yuanVideo, two state-of-the-art open-source video generation frameworks, and conduct extensive experiments on two 8- GPU systems. Experimental results show that, under many common resolution and timestep configurations, our PipeDiT achieves 1.06x to 4.02x speedups over OpenSoraPlan and HunyuanVideo.
- Abstract(参考訳): ビデオ生成は急速に進歩しており、拡散トランスフォーマー(DiT)ベースのモデルではremark- able機能を示す。
しかし、彼らの実践的なデプロイメントは、推論速度の遅いこととメモリ消費の増大によって妨げられている。
本稿では,ビデオ生成を高速化する,PipeDiTという新しいパイプライン・フレーム・ワークを提案する。
まず,複数のGPU間での遅延生成と可換ニカチオンの計算をパイプライン化できるように,シーケンス並列性(SP)のためのパイプライニングアルゴリズム(PipeSP)を設計する。
次に,拡散モジュールと可変オートエンコーダ(VAE)モジュールを2つのGPUグループに分離するDeDiVAEを提案する。
第3に,VAEグループにおけるGPUリソースをより有効活用するために,ビデオ生成遅延の低減を図るために,アテンションコプロセッシング(Aco)手法を提案する。
2つの最先端のオープンソースビデオ生成フレームワークであるOpenSoraPlanとHun-yuanVideoにPipeDiTを統合し、2つの8-GPUシステムで広範な実験を行います。
その結果,OpenSoraPlanやHunyuanVideoに比べて,PipDiTは1.06倍から4.02倍のスピードアップを達成した。
関連論文リスト
- Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile [28.913893318345384]
3次元フルアテンションを持つ拡散変換器(DiT)は、注意計算の複雑さと多数のサンプリングステップにより、高価な推論に悩まされる。
本稿では,1)ビデオデータの冗長性に基づく3Dフルアテンションの抽出,2)既存の多段整合蒸留によるサンプリングプロセスの短縮,の2つの側面から非効率性の問題に対処する。
論文 参考訳(メタデータ) (2025-02-10T05:00:56Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。
最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文 参考訳(メタデータ) (2024-10-25T08:08:51Z) - Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。
提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文 参考訳(メタデータ) (2024-06-24T01:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。