論文の概要: Minute-Long Videos with Dual Parallelisms
- arxiv url: http://arxiv.org/abs/2505.21070v2
- Date: Thu, 29 May 2025 01:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.751861
- Title: Minute-Long Videos with Dual Parallelisms
- Title(参考訳): Dual Parallelism を用いた分長ビデオ
- Authors: Zeqing Wang, Bowen Zheng, Xingyi Yang, Zhenxiong Tan, Yuecong Xu, Xinchao Wang,
- Abstract要約: Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
- 参考スコア(独自算出の注目度): 57.22737565366549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformer (DiT)-based video diffusion models generate high-quality videos at scale but incur prohibitive processing latency and memory costs for long videos. To address this, we propose a novel distributed inference strategy, termed DualParal. The core idea is that, instead of generating an entire video on a single GPU, we parallelize both temporal frames and model layers across GPUs. However, a naive implementation of this division faces a key limitation: since diffusion models require synchronized noise levels across frames, this implementation leads to the serialization of original parallelisms. We leverage a block-wise denoising scheme to handle this. Namely, we process a sequence of frame blocks through the pipeline with progressively decreasing noise levels. Each GPU handles a specific block and layer subset while passing previous results to the next GPU, enabling asynchronous computation and communication. To further optimize performance, we incorporate two key enhancements. Firstly, a feature cache is implemented on each GPU to store and reuse features from the prior block as context, minimizing inter-GPU communication and redundant computation. Secondly, we employ a coordinated noise initialization strategy, ensuring globally consistent temporal dynamics by sharing initial noise patterns across GPUs without extra resource costs. Together, these enable fast, artifact-free, and infinitely long video generation. Applied to the latest diffusion transformer video generator, our method efficiently produces 1,025-frame videos with up to 6.54$\times$ lower latency and 1.48$\times$ lower memory cost on 8$\times$RTX 4090 GPUs.
- Abstract(参考訳): Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
そこで本研究では,DualParalと呼ばれる分散推論手法を提案する。
コアとなる考え方は、単一のGPU上でビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化する、ということです。
拡散モデルはフレーム間の同期ノイズレベルを必要とするため、この実装は元の並列性のシリアライズに繋がる。
我々はこれを扱うためにブロックワイズ・デノケーション・スキームを活用している。
すなわち、パイプラインを通して一連のフレームブロックを処理し、徐々にノイズレベルを下げる。
各GPUは、前の結果を次のGPUに渡す間、特定のブロックとレイヤサブセットを処理し、非同期計算と通信を可能にする。
パフォーマンスをさらに最適化するために,2つの重要な機能拡張を取り入れた。
まず、各GPUに機能キャッシュを実装して、前回のブロックから機能をコンテキストとして保存し再利用し、GPU間通信と冗長計算を最小限にする。
第二に、調整されたノイズ初期化戦略を採用し、余分なリソースコストを伴わずにGPU間で初期ノイズパターンを共有することにより、グローバルに一貫した時間的ダイナミクスを確保する。
これらは同時に、高速で、アーティファクトフリーで、無限に長いビデオ生成を可能にする。
最新の拡散変圧器ビデオジェネレータに適用し、最大6.54$\times$低レイテンシと1.48$\times$低メモリコストを8$\times$RTX 4090 GPU上で効率よく1,025フレームビデオを生成する。
関連論文リスト
- Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。
提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文 参考訳(メタデータ) (2024-06-24T01:56:12Z) - AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising [49.785626309848276]
AsyncDiffは、複数のデバイスにまたがるモデル並列化を可能にする、普遍的でプラグアンドプレイのアクセラレーションスキームである。
安定拡散 v2.1 では、AsyncDiff は2.7倍の速度アップと4.0倍のスピードアップを実現し、CLIPスコアの 0.38 をわずかに削減した。
我々の実験は、AsyncDiffがビデオ拡散モデルに容易に適用でき、性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-06-11T03:09:37Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。