Fugu-MT 論文翻訳(概要): NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation

論文の概要: NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation

arxiv url: http://arxiv.org/abs/2303.12346v1
Date: Wed, 22 Mar 2023 07:10:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-23 15:00:33.924809
Title: NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation
Title（参考訳）: NUWA-XL:eXtremely Long Video Generationのための拡散拡散
Authors: Shengming Yin, Chenfei Wu, Huan Yang, Jianfeng Wang, Xiaodong Wang, Minheng Ni, Zhengyuan Yang, Linjie Li, Shuguang Liu, Fan Yang, Jianlong Fu, Gong Ming, Lijuan Wang, Zicheng Liu, Houqiang Li, Nan Duan
Abstract要約: NUWA-XLは、eXtremely Long 世代のための新しい拡散アーキテクチャである。当社のアプローチでは,動画を同じ粒度で並列に生成できる粗大な「微細化」プロセスを採用している。実験の結果,グローバル・ローカル・コヒーレンスの両方で高品質な長編ビデオを生成するだけでなく,平均推定時間を7.55分から26秒に短縮できることがわかった。
参考スコア（独自算出の注目度）: 157.07019458623242
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose NUWA-XL, a novel Diffusion over Diffusion architecture for eXtremely Long video generation. Most current work generates long videos segment by segment sequentially, which normally leads to the gap between training on short videos and inferring long videos, and the sequential generation is inefficient. Instead, our approach adopts a ``coarse-to-fine'' process, in which the video can be generated in parallel at the same granularity. A global diffusion model is applied to generate the keyframes across the entire time range, and then local diffusion models recursively fill in the content between nearby frames. This simple yet effective strategy allows us to directly train on long videos (3376 frames) to reduce the training-inference gap, and makes it possible to generate all segments in parallel. To evaluate our model, we build FlintstonesHD dataset, a new benchmark for long video generation. Experiments show that our model not only generates high-quality long videos with both global and local coherence, but also decreases the average inference time from 7.55min to 26s (by 94.26\%) at the same hardware setting when generating 1024 frames. The homepage link is \url{https://msra-nuwa.azurewebsites.net/}
Abstract（参考訳）: 本稿では,eXtremely Longビデオ生成のためのDiffusion over DiffusionアーキテクチャであるNUWA-XLを提案する。現在のほとんどの作品は、連続的に長いビデオセグメントを生成するが、これは通常、短いビデオのトレーニングと長いビデオの推測の間にギャップを生じさせ、シーケンシャルな生成は非効率である。その代わりに、我々のアプローチでは、ビデオが同じ粒度で並列に生成される‘粗い’プロセスを採用しています。全時間範囲にわたってキーフレームを生成するために大域拡散モデルが適用され、周辺フレーム間のコンテンツを局所拡散モデルが再帰的に埋める。このシンプルで効果的な戦略により、長いビデオ(3376フレーム)を直接トレーニングすることで、トレーニングと推論のギャップを減らし、すべてのセグメントを並列に生成することが可能になります。このモデルを評価するために、長いビデオ生成のための新しいベンチマークであるFlintstonesHDデータセットを構築した。実験により,本モデルは,グローバルおよびローカルのコヒーレンスを持つ高品質なロングビデオを生成するだけでなく,同じハードウェア環境において,平均推定時間を7.55minから26s(94.26\%)に短縮することを示した。ホームページリンクは \url{https://msra-nuwa.azurewebsites.net/}

関連論文リスト

TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation [4.261090951843438]
ビデオフレーム補間(VFI)は、2つの連続する隣接するフレームに基づいて中間フレーム$I_n$を予測することを目的としている。近年,この課題に拡散モデル(画像ベースとビデオベースの両方)を適用し,高い性能を実現している。ビデオフレーム補間(TLB-VFI)のための時間対応ラテントブラウン橋拡散モデルを提案する。
論文参考訳（メタデータ） (2025-07-07T13:25:32Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
Frame-Level Captions for Long Video Generation with Complex Multi Scenes [52.12699618126831]
本稿では,データセットをフレームレベルでアノテートする方法を提案する。この詳細なガイダンスはFrame-Level Attention Mechanismを使って、テキストとビデオの一致を正確に確認する。トレーニングでは、Diffusion Forcingを使用して、モデルを柔軟に処理する能力を提供します。
論文参考訳（メタデータ） (2025-05-27T07:39:43Z)
SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models [10.66567645920237]
本研究の目的は,被服が時間的整合性を維持しつつ着ている新しい映像を合成することである。我々は,映像仮想試着を条件付き映像塗装作業として再認識し,衣服を入力条件として機能させる。具体的には,時間的注意層を取り入れた画像拡散モデルを構築し,時間的コヒーレンスを改善する。
論文参考訳（メタデータ） (2024-12-13T14:50:26Z)
Towards Chunk-Wise Generation for Long Videos [40.93693702874981]
我々は,自己回帰的チャンク・バイ・チャンク戦略を用いて,長時間のビデオ生成に関する調査を行う。長大なビデオタスクにショート・イメージ・チャンク・トゥ・ビデオ・モデルを適用することで生じる一般的な問題に対処する。
論文参考訳（メタデータ） (2024-11-27T16:13:26Z)
Progressive Autoregressive Video Diffusion Models [24.97019070991881]
アーキテクチャを変更することなく、既存のモデルを自動回帰ビデオ拡散モデルに自然に拡張できることを示す。 1分間(24FPSで1440フレーム)の長ビデオ生成の最先端結果を示す。
論文参考訳（メタデータ） (2024-10-10T17:36:15Z)
Pyramidal Flow Matching for Efficient Video Generative Modeling [67.03504440964564]
この研究は、統合ピラミッドフローマッチングアルゴリズムを導入している。元々の装飾軌道をピラミッドの一連の段階として犠牲にしており、最終段階のみが完全な解像度で機能している。フレームワーク全体はエンドツーエンドで最適化でき、単一の統合Diffusion Transformer (DiT) を使用する。
論文参考訳（メタデータ） (2024-10-08T12:10:37Z)
Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文参考訳（メタデータ） (2024-06-24T01:56:12Z)
ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-16T15:37:22Z)
Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文参考訳（メタデータ） (2023-04-15T06:17:30Z)
Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos [60.86880787242561]
ビデオ時間グラウンドは、クエリ記述にマッチしたビデオセグメントをピンポイントすることを目的としている。高速な時間的グラウンド化のためのエンドツーエンドのフレームワークを提案する。提案手法は最先端技術よりも優れ,textbf14.6$times$ / textbf102.8$times$高効率を実現している。
論文参考訳（メタデータ） (2023-03-15T03:54:43Z)
MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文参考訳（メタデータ） (2022-11-20T16:40:31Z)
Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。本稿では,ビデオ生成のための拡散モデルを提案する。そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文参考訳（メタデータ） (2022-04-07T14:08:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。