論文の概要: Video-Infinity: Distributed Long Video Generation
- arxiv url: http://arxiv.org/abs/2406.16260v1
- Date: Mon, 24 Jun 2024 01:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:22:56.110702
- Title: Video-Infinity: Distributed Long Video Generation
- Title(参考訳): ビデオインフィニティ:分散長ビデオ生成
- Authors: Zhenxiong Tan, Xingyi Yang, Songhua Liu, Xinchao Wang,
- Abstract要約: 拡散モデルは近年,映像生成において顕著な成果を上げている。
提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
- 参考スコア(独自算出の注目度): 73.30145218077074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have recently achieved remarkable results for video generation. Despite the encouraging performances, the generated videos are typically constrained to a small number of frames, resulting in clips lasting merely a few seconds. The primary challenges in producing longer videos include the substantial memory requirements and the extended processing time required on a single GPU. A straightforward solution would be to split the workload across multiple GPUs, which, however, leads to two issues: (1) ensuring all GPUs communicate effectively to share timing and context information, and (2) modifying existing video diffusion models, which are usually trained on short sequences, to create longer videos without additional training. To tackle these, in this paper we introduce Video-Infinity, a distributed inference pipeline that enables parallel processing across multiple GPUs for long-form video generation. Specifically, we propose two coherent mechanisms: Clip parallelism and Dual-scope attention. Clip parallelism optimizes the gathering and sharing of context information across GPUs which minimizes communication overhead, while Dual-scope attention modulates the temporal self-attention to balance local and global contexts efficiently across the devices. Together, the two mechanisms join forces to distribute the workload and enable the fast generation of long videos. Under an 8 x Nvidia 6000 Ada GPU (48G) setup, our method generates videos up to 2,300 frames in approximately 5 minutes, enabling long video generation at a speed 100 times faster than the prior methods.
- Abstract(参考訳): 拡散モデルは近年,映像生成において顕著な成果を上げている。
素晴らしいパフォーマンスにもかかわらず、生成されたビデオは典型的には少数のフレームに制限されるため、クリップはわずか数秒で持続する。
より長いビデオを生成する上での最大の課題は、かなりのメモリ要件と、単一のGPUで必要な処理時間の拡張である。
簡単な解決策としては、ワークロードを複数のGPUに分割する、という2つの問題がある。(1) すべてのGPUが効果的に通信してタイミングとコンテキスト情報を共有すること、(2)通常、短いシーケンスでトレーニングされた既存のビデオ拡散モデルを変更することで、追加のトレーニングなしでより長いビデオを作成すること、である。
本稿では,複数のGPU間の並列処理が可能な分散推論パイプラインであるVideo-Infinityを紹介する。
具体的には,Clip並列性とデュアルスコープアテンションという2つのコヒーレント機構を提案する。
Clip並列処理は、通信オーバーヘッドを最小限に抑えるGPU間のコンテキスト情報の収集と共有を最適化する一方、デュアルスコープアテンションは、時間的自己アテンションを変調して、ローカルとグローバルのコンテキストをデバイス間で効率的にバランスさせる。
2つのメカニズムが組み合わさって、ワークロードを分散し、長いビデオの高速な生成を可能にする。
Nvidia 6000 Ada GPU (48G) の8倍のセットアップで, 約5分で2300フレームの動画を生成する。
関連論文リスト
- Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - Multi-sentence Video Grounding for Long Video Generation [46.363084926441466]
長大映像生成のための多文ビデオグラウンドの勇敢で新しいアイデアを提案する。
提案手法は,画像・ビデオ編集,ビデオモーフィング,パーソナライズド生成,ビデオグラウンドニングの発達を,長いビデオ生成にシームレスに拡張する。
論文 参考訳(メタデータ) (2024-07-18T07:05:05Z) - RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos [16.916873537450424]
既存の手法は通常、クリップ検索と接地という2つの段階で動作する。
本稿では,長い動画を複数の粒度に処理できる1つのネットワークに,クリップ検索とグラウンドを深く統合したRGNetを提案する。
RGNetは従来の手法を超越し、ロングビデオ時間グラウンド(LVTG)データセットMADとEgo4Dの最先端性能を示す。
論文 参考訳(メタデータ) (2023-12-11T09:12:35Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation [157.07019458623242]
NUWA-XLは、eXtremely Long 世代のための新しい拡散アーキテクチャである。
当社のアプローチでは,動画を同じ粒度で並列に生成できる粗大な「微細化」プロセスを採用している。
実験の結果,グローバル・ローカル・コヒーレンスの両方で高品質な長編ビデオを生成するだけでなく,平均推定時間を7.55分から26秒に短縮できることがわかった。
論文 参考訳(メタデータ) (2023-03-22T07:10:09Z) - Diverse Generation from a Single Video Made Possible [24.39972895902724]
本稿では,1つの自然なビデオから映像を生成し,操作するための高速で実用的な方法を提案する。
本手法は,シングルビデオGANよりもリアルで高品質な結果を生成する。
論文 参考訳(メタデータ) (2021-09-17T15:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。