論文の概要: Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index
- arxiv url: http://arxiv.org/abs/2603.06664v1
- Date: Mon, 02 Mar 2026 10:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.687396
- Title: Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index
- Title(参考訳): グローバル時間指数を用いた逐次パラレル3次元位置符号化による映像生成の高速化
- Authors: Chao Yuan, Pan Li,
- Abstract要約: 因果自己回帰ビデオ生成パイプラインに対するシステムレベルの推論最適化を実装した。
5秒の480Pビデオでは、1.58倍のスピードアップが達成され、リアルタイムインタラクティブアプリケーションに対する効果的なサポートを提供する。
- 参考スコア(独自算出の注目度): 11.944339418621693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformer (DiT)-based video generation models inherently suffer from bottlenecks in long video synthesis and real-time inference, which can be attributed to the use of full spatiotemporal attention. Specifically, this mechanism leads to explosive O(N^2) memory consumption and high first-frame latency. To address these issues, we implement system-level inference optimizations for a causal autoregressive video generation pipeline. We adapt the Self-Forcing causal autoregressive framework to sequence parallel inference and implement a sequence-parallel variant of the causal rotary position embedding which we refer to as Causal-RoPE SP. This adaptation enables localized computation and reduces cross-rank communication in sequence parallel execution. In addition, computation and communication pipelines are optimized through operator fusion and RoPE precomputation. Experiments conducted on an eight GPU A800 cluster show that the optimized system achieves comparable generation quality, sub-second first-frame latency, and near real-time inference speed. For generating five second 480P videos, a 1.58x speedup is achieved, thereby providing effective support for real-time interactive applications.
- Abstract(参考訳): Diffusion Transformer (DiT) ベースのビデオ生成モデルは、時間空間の注意をフルに利用することに起因する長大なビデオ合成とリアルタイム推論において、本質的にボトルネックに悩まされている。
具体的には、この機構は爆発的なO(N^2)メモリ消費と1フレームの遅延を発生させる。
これらの問題に対処するため、我々は因果自己回帰ビデオ生成パイプラインのためのシステムレベルの推論最適化を実装した。
本稿では,Self-Forcing causal autoregressive frameworkを並列推論に適応させ,Causal-RoPE SPと呼ぶ因果回転位置埋め込みのシーケンシャル並列変種を実装した。
この適応により、ローカライズされた計算が可能となり、シーケンス並列実行におけるクロスランク通信が削減される。
さらに、演算子融合とRoPEプリ計算によって計算と通信パイプラインが最適化される。
8つのGPU A800クラスタで実施された実験によると、最適化されたシステムは、同等の世代品質、秒以下の第1フレームレイテンシ、ほぼリアルタイムの推論速度を達成する。
5秒の480Pビデオを生成するために、1.58倍のスピードアップを実現し、リアルタイム対話型アプリケーションに効果的なサポートを提供する。
関連論文リスト
- Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling [10.012655130147413]
拡散モデルは高忠実度画像、ビデオ、オーディオ生成において顕著な進歩を遂げた。
本フレームワークは,SDXLとSD3でそれぞれ2.31times$と2.07times$のレイテンシ低減を実現している。
提案手法は,高分解能合成条件下での既存の高速化手法よりも優れている。
論文 参考訳(メタデータ) (2026-02-25T10:23:07Z) - DiffVC-RT: Towards Practical Real-Time Diffusion-based Perceptual Neural Video Compression [38.495966630021556]
我々は、リアルタイム拡散に基づくニューラルビデオ圧縮(NVC)を実現するための最初のフレームワークであるDiffVC-RTを提案する。
DiffVC-RTは、NVIDIA H800 GPU上の720pビデオに対して、リアルタイムエンコーディングとデコード速度206/30 fpsのHEVCデータセット上で、LPIPSよりもVTM-17.0よりも80.1%のパーセプティカルセーブを実現していることを示す。
論文 参考訳(メタデータ) (2026-01-28T12:59:25Z) - PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling [18.079843329153412]
拡散トランス (DiT) ベースのモデルでは、マーク可能な能力が実証されている。
しかし、彼らの実践的なデプロイメントは、推論速度の遅いことと、メモリ消費の増大によって妨げられている。
ビデオ生成を高速化するために,PipeDiTという新しいパイプラインフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-15T06:46:40Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。
ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。
我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T05:00:39Z) - AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising [49.785626309848276]
AsyncDiffは、複数のデバイスにまたがるモデル並列化を可能にする、普遍的でプラグアンドプレイのアクセラレーションスキームである。
安定拡散 v2.1 では、AsyncDiff は2.7倍の速度アップと4.0倍のスピードアップを実現し、CLIPスコアの 0.38 をわずかに削減した。
我々の実験は、AsyncDiffがビデオ拡散モデルに容易に適用でき、性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-06-11T03:09:37Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。