論文の概要: Towards Chunk-Wise Generation for Long Videos
- arxiv url: http://arxiv.org/abs/2411.18668v1
- Date: Wed, 27 Nov 2024 16:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:30.084433
- Title: Towards Chunk-Wise Generation for Long Videos
- Title(参考訳): 長編ビデオのためのチャンクワイズ生成に向けて
- Authors: Siyang Zhang, Ser-Nam Lim,
- Abstract要約: 我々は,自己回帰的チャンク・バイ・チャンク戦略を用いて,長時間のビデオ生成に関する調査を行う。
長大なビデオタスクにショート・イメージ・チャンク・トゥ・ビデオ・モデルを適用することで生じる一般的な問題に対処する。
- 参考スコア(独自算出の注目度): 40.93693702874981
- License:
- Abstract: Generating long-duration videos has always been a significant challenge due to the inherent complexity of spatio-temporal domain and the substantial GPU memory demands required to calculate huge size tensors. While diffusion based generative models achieve state-of-the-art performance in video generation task, they are typically trained with predefined video resolutions and lengths. During inference, a noise tensor with specific resolution and length should be specified at first, and the model will perform denoising on the entire video tensor simultaneously, all the frames together. Such approach will easily raise an out-of-memory (OOM) problem when the specified resolution and/or length exceed a certain limit. One of the solutions to this problem is to generate many short video chunks autoregressively with strong inter-chunk spatio-temporal relation and then concatenate them together to form a long video. In this approach, a long video generation task is divided into multiple short video generation subtasks, and the cost of each subtask is reduced to a feasible level. In this paper, we conduct a detailed survey on long video generation with the autoregressive chunk-by-chunk strategy. We address common problems caused by applying short image-to-video models to long video tasks and design an efficient $k$-step search solution to mitigate these problems.
- Abstract(参考訳): 時空間領域の本質的な複雑さと、巨大なテンソルを計算するのに必要なGPUメモリがかなり必要であるため、長いデューレーションビデオの生成は、常に重大な課題だった。
拡散に基づく生成モデルは、ビデオ生成タスクにおいて最先端のパフォーマンスを達成するが、通常、事前に定義されたビデオ解像度と長さで訓練される。
推論中、特定の解像度と長さのノイズテンソルを最初に指定し、すべてのフレームを同時にビデオテンソル全体をデノイングする。
このような手法は、特定の解像度と/または長さが一定の限界を超えると、メモリ外問題(OOM)を容易に提起する。
この問題の解決策の1つは、多くの短いビデオチャンクを強いチャンク間時空間関係で自己回帰的に生成し、それらを結合して長いビデオを形成することである。
このアプローチでは、長いビデオ生成タスクを複数のショートビデオ生成サブタスクに分割し、各サブタスクのコストを実行可能なレベルに削減する。
本稿では,自動回帰チャンク・バイ・チャンク戦略を用いて,長時間ビデオ生成に関する詳細な調査を行う。
本稿では,映像間短いモデルを長時間の映像タスクに適用することによる一般的な問題に対処し,これらの問題を緩和するための効率的な$k$-step検索ソリューションを設計する。
関連論文リスト
- SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models [10.66567645920237]
本研究の目的は,被服が時間的整合性を維持しつつ着ている新しい映像を合成することである。
我々は,映像仮想試着を条件付き映像塗装作業として再認識し,衣服を入力条件として機能させる。
具体的には,時間的注意層を取り入れた画像拡散モデルを構築し,時間的コヒーレンスを改善する。
論文 参考訳(メタデータ) (2024-12-13T14:50:26Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation [157.07019458623242]
NUWA-XLは、eXtremely Long 世代のための新しい拡散アーキテクチャである。
当社のアプローチでは,動画を同じ粒度で並列に生成できる粗大な「微細化」プロセスを採用している。
実験の結果,グローバル・ローカル・コヒーレンスの両方で高品質な長編ビデオを生成するだけでなく,平均推定時間を7.55分から26秒に短縮できることがわかった。
論文 参考訳(メタデータ) (2023-03-22T07:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。