Fugu-MT 論文翻訳(概要): Real-Time Video Generation with Pyramid Attention Broadcast

論文の概要: Real-Time Video Generation with Pyramid Attention Broadcast

arxiv url: http://arxiv.org/abs/2408.12588v1
Date: Thu, 22 Aug 2024 17:54:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 12:52:30.691725
Title: Real-Time Video Generation with Pyramid Attention Broadcast
Title（参考訳）: ピラミッド・アテンション・ブロードキャストによるリアルタイム映像生成
Authors: Xuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You,
Abstract要約: ピラミド・アテンション・ブロードキャスト(PAB)は、リアルタイム、高品質、およびトレーニング不要なDiTベースのビデオ生成方式である。 PABはベースラインと比較して3つのモデルで優れた結果を示し、最大720pビデオのリアルタイム生成を実現している。
参考スコア（独自算出の注目度）: 16.130351577745405
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Pyramid Attention Broadcast (PAB), a real-time, high quality and training-free approach for DiT-based video generation. Our method is founded on the observation that attention difference in the diffusion process exhibits a U-shaped pattern, indicating significant redundancy. We mitigate this by broadcasting attention outputs to subsequent steps in a pyramid style. It applies different broadcast strategies to each attention based on their variance for best efficiency. We further introduce broadcast sequence parallel for more efficient distributed inference. PAB demonstrates superior results across three models compared to baselines, achieving real-time generation for up to 720p videos. We anticipate that our simple yet effective method will serve as a robust baseline and facilitate future research and application for video generation.
Abstract（参考訳）: 本稿では,リアルタイム,高品質,トレーニング不要なDiTビデオ生成手法であるPraamid Attention Broadcast(PAB)を提案する。本手法は, 拡散過程における注意差がU字型パターンを示し, 有意な冗長性を示すことに基づく。我々は、ピラミッドスタイルのその後のステップに注意出力をブロードキャストすることでこれを緩和する。最高の効率のために、各注意に異なるブロードキャスト戦略を適用する。さらに、より効率的な分散推論のために、放送シーケンスの並列化を導入する。 PABはベースラインと比較して3つのモデルで優れた結果を示し、最大720pビデオのリアルタイム生成を実現している。我々は,我々のシンプルで効果的な手法が,堅牢なベースラインとして機能し,将来的なビデオ生成研究や応用を促進することを期待する。

関連論文リスト

TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation [4.261090951843438]
ビデオフレーム補間(VFI)は、2つの連続する隣接するフレームに基づいて中間フレーム$I_n$を予測することを目的としている。近年,この課題に拡散モデル(画像ベースとビデオベースの両方)を適用し,高い性能を実現している。ビデオフレーム補間(TLB-VFI)のための時間対応ラテントブラウン橋拡散モデルを提案する。
論文参考訳（メタデータ） (2025-07-07T13:25:32Z)
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文参考訳（メタデータ） (2025-06-09T17:59:55Z)
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文参考訳（メタデータ） (2025-03-25T08:52:07Z)
Diffusion Adversarial Post-Training for One-Step Video Generation [26.14991703029242]
本稿では,1ステップビデオ生成のための拡散事前学習後の実データに対して,APT(Adversarial Post-Training)を提案する。我々のモデルは1ステップで1024px画像を生成することができ、最先端の手法に匹敵する品質を実現することができる。
論文参考訳（メタデータ） (2025-01-14T18:51:48Z)
Enhancing Multi-Text Long Video Generation Consistency without Tuning: Time-Frequency Analysis, Prompt Alignment, and Theory [92.1714656167712]
本稿では,単一または複数プロンプトで生成されたビデオの一貫性とコヒーレンスを高めるため,時間的注意強調アルゴリズム(TiARA)を提案する。本手法は拡散モデルにおける周波数に基づく手法の第一種である理論的保証によって支持される。複数のプロンプトが生成するビデオについては、プロンプト品質に影響を及ぼす重要な要因をさらに調査し、プロンプトブレンド(PromptBlend)という高度なビデオプロンプトパイプラインを提案する。
論文参考訳（メタデータ） (2024-12-23T03:56:27Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文参考訳（メタデータ） (2024-10-09T14:34:53Z)
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文参考訳（メタデータ） (2024-07-11T17:34:51Z)
SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文参考訳（メタデータ） (2024-06-06T17:58:27Z)
FIFO-Diffusion: Generating Infinite Videos from Text without Training [44.65468310143439]
FIFO-Diffusionは概念的には、追加のトレーニングなしで無限に長いビデオを生成することができる。提案手法では, 頭部に完全に識別されたフレームを列挙し, 尾部に新しいランダムノイズフレームを列挙する。提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。
論文参考訳（メタデータ） (2024-05-19T07:48:41Z)
Efficient End-to-End Video Question Answering with Pyramidal Multimodal Transformer [13.71165050314854]
ビデオQA(End-to-end Video Questioning)のための新しい手法を提案する。学習可能な単語埋め込み層を組み込んだピラミッド型マルチモーダルトランスフォーマー(PMT)モデルでこれを実現できる。我々は,5つのビデオQAベンチマークにおいて,最先端手法に対して高い計算効率で高い性能を示す。
論文参考訳（メタデータ） (2023-02-04T09:14:18Z)
Exploring Vision Transformers as Diffusion Learners [15.32238726790633]
様々な生成タスクのための拡散学習者として視覚変換器を体系的に探索する。我々の改良により、バニラVTベースのバックボーン(IU-ViT)の性能は従来のU-Netベースの方法と同等に向上した。我々は、64x64解像度を超えるテキスト・ツー・イメージタスクで単一の拡散モデルをトレーニングした最初の人です。
論文参考訳（メタデータ） (2022-12-28T10:32:59Z)
Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。本稿では,ビデオ生成のための拡散モデルを提案する。そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文参考訳（メタデータ） (2022-04-07T14:08:02Z)
Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文参考訳（メタデータ） (2022-01-27T16:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。