論文の概要: Real-Time Video Generation with Pyramid Attention Broadcast
- arxiv url: http://arxiv.org/abs/2408.12588v1
- Date: Thu, 22 Aug 2024 17:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 12:52:30.691725
- Title: Real-Time Video Generation with Pyramid Attention Broadcast
- Title(参考訳): ピラミッド・アテンション・ブロードキャストによるリアルタイム映像生成
- Authors: Xuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You,
- Abstract要約: ピラミド・アテンション・ブロードキャスト(PAB)は、リアルタイム、高品質、およびトレーニング不要なDiTベースのビデオ生成方式である。
PABはベースラインと比較して3つのモデルで優れた結果を示し、最大720pビデオのリアルタイム生成を実現している。
- 参考スコア(独自算出の注目度): 16.130351577745405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Pyramid Attention Broadcast (PAB), a real-time, high quality and training-free approach for DiT-based video generation. Our method is founded on the observation that attention difference in the diffusion process exhibits a U-shaped pattern, indicating significant redundancy. We mitigate this by broadcasting attention outputs to subsequent steps in a pyramid style. It applies different broadcast strategies to each attention based on their variance for best efficiency. We further introduce broadcast sequence parallel for more efficient distributed inference. PAB demonstrates superior results across three models compared to baselines, achieving real-time generation for up to 720p videos. We anticipate that our simple yet effective method will serve as a robust baseline and facilitate future research and application for video generation.
- Abstract(参考訳): 本稿では,リアルタイム,高品質,トレーニング不要なDiTビデオ生成手法であるPraamid Attention Broadcast(PAB)を提案する。
本手法は, 拡散過程における注意差がU字型パターンを示し, 有意な冗長性を示すことに基づく。
我々は、ピラミッドスタイルのその後のステップに注意出力をブロードキャストすることでこれを緩和する。
最高の効率のために、各注意に異なるブロードキャスト戦略を適用する。
さらに、より効率的な分散推論のために、放送シーケンスの並列化を導入する。
PABはベースラインと比較して3つのモデルで優れた結果を示し、最大720pビデオのリアルタイム生成を実現している。
我々は,我々のシンプルで効果的な手法が,堅牢なベースラインとして機能し,将来的なビデオ生成研究や応用を促進することを期待する。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - FIFO-Diffusion: Generating Infinite Videos from Text without Training [44.65468310143439]
FIFO-Diffusionは概念的には、追加のトレーニングなしで無限に長いビデオを生成することができる。
提案手法では, 頭部に完全に識別されたフレームを列挙し, 尾部に新しいランダムノイズフレームを列挙する。
提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。
論文 参考訳(メタデータ) (2024-05-19T07:48:41Z) - Efficient End-to-End Video Question Answering with Pyramidal Multimodal
Transformer [13.71165050314854]
ビデオQA(End-to-end Video Questioning)のための新しい手法を提案する。
学習可能な単語埋め込み層を組み込んだピラミッド型マルチモーダルトランスフォーマー(PMT)モデルでこれを実現できる。
我々は,5つのビデオQAベンチマークにおいて,最先端手法に対して高い計算効率で高い性能を示す。
論文 参考訳(メタデータ) (2023-02-04T09:14:18Z) - Exploring Vision Transformers as Diffusion Learners [15.32238726790633]
様々な生成タスクのための拡散学習者として視覚変換器を体系的に探索する。
我々の改良により、バニラVTベースのバックボーン(IU-ViT)の性能は従来のU-Netベースの方法と同等に向上した。
我々は、64x64解像度を超えるテキスト・ツー・イメージタスクで単一の拡散モデルをトレーニングした最初の人です。
論文 参考訳(メタデータ) (2022-12-28T10:32:59Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。