論文の概要: MALT Diffusion: Memory-Augmented Latent Transformers for Any-Length Video Generation
- arxiv url: http://arxiv.org/abs/2502.12632v1
- Date: Tue, 18 Feb 2025 08:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:49.091254
- Title: MALT Diffusion: Memory-Augmented Latent Transformers for Any-Length Video Generation
- Title(参考訳): MALT拡散: メモリ拡張遅延変換器
- Authors: Sihyun Yu, Meera Hahn, Dan Kondratyuk, Jinwoo Shin, Agrim Gupta, José Lezama, Irfan Essa, David Ross, Jonathan Huang,
- Abstract要約: 長ビデオ生成に特化した新しい拡散モデルMALT Diffusionを提案する。
MALTは、短いセグメントに分割し、セグメントレベルの自己回帰生成を行うことで、長いビデオを処理する。
モデルが一貫した品質と最小限の劣化で長い地平線上でフレームを生成できるようにするための訓練手法をいくつか提示する。
- 参考スコア(独自算出の注目度): 61.14225617657178
- License:
- Abstract: Diffusion models are successful for synthesizing high-quality videos but are limited to generating short clips (e.g., 2-10 seconds). Synthesizing sustained footage (e.g. over minutes) still remains an open research question. In this paper, we propose MALT Diffusion (using Memory-Augmented Latent Transformers), a new diffusion model specialized for long video generation. MALT Diffusion (or just MALT) handles long videos by subdividing them into short segments and doing segment-level autoregressive generation. To achieve this, we first propose recurrent attention layers that encode multiple segments into a compact memory latent vector; by maintaining this memory vector over time, MALT is able to condition on it and continuously generate new footage based on a long temporal context. We also present several training techniques that enable the model to generate frames over a long horizon with consistent quality and minimal degradation. We validate the effectiveness of MALT through experiments on long video benchmarks. We first perform extensive analysis of MALT in long-contextual understanding capability and stability using popular long video benchmarks. For example, MALT achieves an FVD score of 220.4 on 128-frame video generation on UCF-101, outperforming the previous state-of-the-art of 648.4. Finally, we explore MALT's capabilities in a text-to-video generation setting and show that it can produce long videos compared with recent techniques for long text-to-video generation.
- Abstract(参考訳): 拡散モデルは高品質なビデオの合成に成功しているが、短いクリップ(例:2-10秒)しか生成できない。
持続的な映像(例えば数分以上)を合成することは、まだオープンな研究課題である。
本稿では,長期ビデオ生成に特化した新しい拡散モデルであるMALT拡散(メモリ拡張遅延変換器)を提案する。
MALT Diffusion(または単にMALT)は、短いセグメントに分割し、セグメントレベルの自己回帰生成を行うことで、長いビデオを処理する。
そこで我々はまず,複数のセグメントをコンパクトなメモリ潜在ベクトルにエンコードする繰り返しアテンション層を提案し,このメモリベクトルを時間とともに維持することにより,MALTはそれを条件付けし,長時間の時間的コンテキストに基づいて新しい映像を連続的に生成する。
また、モデルが一貫した品質と最小限の劣化で長い水平線上でフレームを生成できるようにするための訓練手法も提示する。
長いビデオベンチマーク実験により,MALTの有効性を検証した。
我々はまず,MALTの長文理解能力と安定性を,人気のある長ビデオベンチマークを用いて広範囲に解析する。
例えば、MALTはUCF-101上の128フレームのビデオ生成で220.4のFVDスコアを達成し、以前の最先端の648.4を上回った。
最後に、MALTの機能をテキスト・ビデオ・ジェネレーション・セッティングで検証し、近年の長大なテキスト・ビデオ・ジェネレーション技術と比較して、長大な動画を生成可能であることを示す。
関連論文リスト
- LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity [43.278705347693446]
本稿では,ピクセル数に対してコストが線形にスケールするリニア・コンプレシティ・テキスト・ビデオ生成フレームワークを提案する。
初めてLinGenは、品質を損なうことなく、単一のGPU上で高解像度の分長ビデオ生成を可能にする。
論文 参考訳(メタデータ) (2024-12-13T04:55:10Z) - Loong: Generating Minute-level Long Videos with Autoregressive Language Models [76.59124981781602]
そこで我々は,Longという自動回帰型大言語モデル (LLM) ベースのビデオジェネレータを提案する。
具体的には,テキストトークンとビデオトークンを自己回帰LDMの統一シーケンスとしてモデル化し,スクラッチからモデルをトレーニングする。
提案したLoongは10秒のビデオでトレーニングでき、テキストプロンプトで調整されたミニレベル長ビデオを生成するよう拡張できる。
論文 参考訳(メタデータ) (2024-10-03T17:59:02Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。
LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文 参考訳(メタデータ) (2024-02-19T11:59:14Z) - NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation [157.07019458623242]
NUWA-XLは、eXtremely Long 世代のための新しい拡散アーキテクチャである。
当社のアプローチでは,動画を同じ粒度で並列に生成できる粗大な「微細化」プロセスを採用している。
実験の結果,グローバル・ローカル・コヒーレンスの両方で高品質な長編ビデオを生成するだけでなく,平均推定時間を7.55分から26秒に短縮できることがわかった。
論文 参考訳(メタデータ) (2023-03-22T07:10:09Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。