論文の概要: PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling
- arxiv url: http://arxiv.org/abs/2511.12056v1
- Date: Sat, 15 Nov 2025 06:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.573626
- Title: PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling
- Title(参考訳): PipeDiT:タスクパイプライニングとモデルデカップリングによるビデオ生成における拡散変換器の高速化
- Authors: Sijie Wang, Qiang Wang, Shaohuai Shi,
- Abstract要約: 拡散トランス (DiT) ベースのモデルでは、マーク可能な能力が実証されている。
しかし、彼らの実践的なデプロイメントは、推論速度の遅いことと、メモリ消費の増大によって妨げられている。
ビデオ生成を高速化するために,PipeDiTという新しいパイプラインフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.079843329153412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation has been advancing rapidly, and diffusion transformer (DiT) based models have demonstrated remark- able capabilities. However, their practical deployment is of- ten hindered by slow inference speeds and high memory con- sumption. In this paper, we propose a novel pipelining frame- work named PipeDiT to accelerate video generation, which is equipped with three main innovations. First, we design a pipelining algorithm (PipeSP) for sequence parallelism (SP) to enable the computation of latent generation and commu- nication among multiple GPUs to be pipelined, thus reduc- ing inference latency. Second, we propose DeDiVAE to de- couple the diffusion module and the variational autoencoder (VAE) module into two GPU groups, whose executions can also be pipelined to reduce memory consumption and infer- ence latency. Third, to better utilize the GPU resources in the VAE group, we propose an attention co-processing (Aco) method to further reduce the overall video generation latency. We integrate our PipeDiT into both OpenSoraPlan and Hun- yuanVideo, two state-of-the-art open-source video generation frameworks, and conduct extensive experiments on two 8- GPU systems. Experimental results show that, under many common resolution and timestep configurations, our PipeDiT achieves 1.06x to 4.02x speedups over OpenSoraPlan and HunyuanVideo.
- Abstract(参考訳): ビデオ生成は急速に進歩しており、拡散トランスフォーマー(DiT)ベースのモデルではremark- able機能を示す。
しかし、彼らの実践的なデプロイメントは、推論速度の遅いこととメモリ消費の増大によって妨げられている。
本稿では,ビデオ生成を高速化する,PipeDiTという新しいパイプライン・フレーム・ワークを提案する。
まず,複数のGPU間での遅延生成と可換ニカチオンの計算をパイプライン化できるように,シーケンス並列性(SP)のためのパイプライニングアルゴリズム(PipeSP)を設計する。
次に,拡散モジュールと可変オートエンコーダ(VAE)モジュールを2つのGPUグループに分離するDeDiVAEを提案する。
第3に,VAEグループにおけるGPUリソースをより有効活用するために,ビデオ生成遅延の低減を図るために,アテンションコプロセッシング(Aco)手法を提案する。
2つの最先端のオープンソースビデオ生成フレームワークであるOpenSoraPlanとHun-yuanVideoにPipeDiTを統合し、2つの8-GPUシステムで広範な実験を行います。
その結果,OpenSoraPlanやHunyuanVideoに比べて,PipDiTは1.06倍から4.02倍のスピードアップを達成した。
関連論文リスト
- Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling [10.012655130147413]
拡散モデルは高忠実度画像、ビデオ、オーディオ生成において顕著な進歩を遂げた。
本フレームワークは,SDXLとSD3でそれぞれ2.31times$と2.07times$のレイテンシ低減を実現している。
提案手法は,高分解能合成条件下での既存の高速化手法よりも優れている。
論文 参考訳(メタデータ) (2026-02-25T10:23:07Z) - Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - StreamFusion: Scalable Sequence Parallelism for Distributed Inference of Diffusion Transformers on GPUs [8.844450350128362]
ディフュージョントランスフォーマー(DiT)は、高品質の画像やビデオ生成において、ますます普及している。
StreamFusionは、トポロジー対応の効率的なDiTサービスエンジンである。
私たちの実験では、StreamFusionが最先端のアプローチを平均1.35タイム(最大1.77タイム)で上回ります。
論文 参考訳(メタデータ) (2026-01-28T05:42:07Z) - PipeFlow: Pipelined Processing and Motion-Aware Frame Selection for Long-Form Video Editing [29.552187111796403]
スケーラブルでパイプライン化されたビデオ編集手法であるPipeFlowを提案する。
動作解析に基づき,低速度フレームの編集を省略することを提案する。
提案手法は,より小さなセグメントに分割することで,より長いビデオに一意にスケールする。
論文 参考訳(メタデータ) (2025-12-30T06:54:57Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - Magic 1-For-1: Generating One Minute Video Clips within One Minute [53.07214657235465]
メモリ消費と推論遅延を最適化した効率的なビデオ生成モデルMagic 1-For-1(Magic141)を提案する。
テスト時間スライディングウィンドウを適用することで、1分以内に1分間の動画を生成できるようになり、視覚的品質と動きのダイナミクスが大幅に向上した。
論文 参考訳(メタデータ) (2025-02-11T16:58:15Z) - Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile [28.913893318345384]
3次元フルアテンションを持つ拡散変換器(DiT)は、注意計算の複雑さと多数のサンプリングステップにより、高価な推論に悩まされる。
本稿では,1)ビデオデータの冗長性に基づく3Dフルアテンションの抽出,2)既存の多段整合蒸留によるサンプリングプロセスの短縮,の2つの側面から非効率性の問題に対処する。
論文 参考訳(メタデータ) (2025-02-10T05:00:56Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。
最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文 参考訳(メタデータ) (2024-10-25T08:08:51Z) - Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。
提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文 参考訳(メタデータ) (2024-06-24T01:56:12Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。