論文の概要: Real-Time Video Generation with Pyramid Attention Broadcast
- arxiv url: http://arxiv.org/abs/2408.12588v1
- Date: Thu, 22 Aug 2024 17:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 12:52:30.691725
- Title: Real-Time Video Generation with Pyramid Attention Broadcast
- Title(参考訳): ピラミッド・アテンション・ブロードキャストによるリアルタイム映像生成
- Authors: Xuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You,
- Abstract要約: ピラミド・アテンション・ブロードキャスト(PAB)は、リアルタイム、高品質、およびトレーニング不要なDiTベースのビデオ生成方式である。
PABはベースラインと比較して3つのモデルで優れた結果を示し、最大720pビデオのリアルタイム生成を実現している。
- 参考スコア(独自算出の注目度): 16.130351577745405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Pyramid Attention Broadcast (PAB), a real-time, high quality and training-free approach for DiT-based video generation. Our method is founded on the observation that attention difference in the diffusion process exhibits a U-shaped pattern, indicating significant redundancy. We mitigate this by broadcasting attention outputs to subsequent steps in a pyramid style. It applies different broadcast strategies to each attention based on their variance for best efficiency. We further introduce broadcast sequence parallel for more efficient distributed inference. PAB demonstrates superior results across three models compared to baselines, achieving real-time generation for up to 720p videos. We anticipate that our simple yet effective method will serve as a robust baseline and facilitate future research and application for video generation.
- Abstract(参考訳): 本稿では,リアルタイム,高品質,トレーニング不要なDiTビデオ生成手法であるPraamid Attention Broadcast(PAB)を提案する。
本手法は, 拡散過程における注意差がU字型パターンを示し, 有意な冗長性を示すことに基づく。
我々は、ピラミッドスタイルのその後のステップに注意出力をブロードキャストすることでこれを緩和する。
最高の効率のために、各注意に異なるブロードキャスト戦略を適用する。
さらに、より効率的な分散推論のために、放送シーケンスの並列化を導入する。
PABはベースラインと比較して3つのモデルで優れた結果を示し、最大720pビデオのリアルタイム生成を実現している。
我々は,我々のシンプルで効果的な手法が,堅牢なベースラインとして機能し,将来的なビデオ生成研究や応用を促進することを期待する。
関連論文リスト
- Diffusion Adversarial Post-Training for One-Step Video Generation [26.14991703029242]
本稿では,1ステップビデオ生成のための拡散事前学習後の実データに対して,APT(Adversarial Post-Training)を提案する。
我々のモデルは1ステップで1024px画像を生成することができ、最先端の手法に匹敵する品質を実現することができる。
論文 参考訳(メタデータ) (2025-01-14T18:51:48Z) - Enhancing Multi-Text Long Video Generation Consistency without Tuning: Time-Frequency Analysis, Prompt Alignment, and Theory [92.1714656167712]
本稿では,単一または複数プロンプトで生成されたビデオの一貫性とコヒーレンスを高めるため,時間的注意強調アルゴリズム(TiARA)を提案する。
本手法は拡散モデルにおける周波数に基づく手法の第一種である理論的保証によって支持される。
複数のプロンプトが生成するビデオについては、プロンプト品質に影響を及ぼす重要な要因をさらに調査し、プロンプトブレンド(PromptBlend)という高度なビデオプロンプトパイプラインを提案する。
論文 参考訳(メタデータ) (2024-12-23T03:56:27Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - FIFO-Diffusion: Generating Infinite Videos from Text without Training [44.65468310143439]
FIFO-Diffusionは概念的には、追加のトレーニングなしで無限に長いビデオを生成することができる。
提案手法では, 頭部に完全に識別されたフレームを列挙し, 尾部に新しいランダムノイズフレームを列挙する。
提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。
論文 参考訳(メタデータ) (2024-05-19T07:48:41Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。