論文の概要: STIV: Scalable Text and Image Conditioned Video Generation
- arxiv url: http://arxiv.org/abs/2412.07730v1
- Date: Tue, 10 Dec 2024 18:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:32.681405
- Title: STIV: Scalable Text and Image Conditioned Video Generation
- Title(参考訳): STIV: スケーラブルテキストと画像条件付きビデオ生成
- Authors: Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang,
- Abstract要約: 本稿では,STIVという,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案する。
本フレームワークは,テキストコンディショニングを取り入れつつ,フレーム交換による拡散変換器(DiT)に画像条件を統合する。
STIVは、ビデオ予測、フレーム、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
- 参考スコア(独自算出の注目度): 84.2574247093223
- License:
- Abstract: The field of video generation has made remarkable advancements, yet there remains a pressing need for a clear, systematic recipe that can guide the development of robust and scalable models. In this work, we present a comprehensive study that systematically explores the interplay of model architectures, training recipes, and data curation strategies, culminating in a simple and scalable text-image-conditioned video generation method, named STIV. Our framework integrates image condition into a Diffusion Transformer (DiT) through frame replacement, while incorporating text conditioning via a joint image-text conditional classifier-free guidance. This design enables STIV to perform both text-to-video (T2V) and text-image-to-video (TI2V) tasks simultaneously. Additionally, STIV can be easily extended to various applications, such as video prediction, frame interpolation, multi-view generation, and long video generation, etc. With comprehensive ablation studies on T2I, T2V, and TI2V, STIV demonstrate strong performance, despite its simple design. An 8.7B model with 512 resolution achieves 83.1 on VBench T2V, surpassing both leading open and closed-source models like CogVideoX-5B, Pika, Kling, and Gen-3. The same-sized model also achieves a state-of-the-art result of 90.1 on VBench I2V task at 512 resolution. By providing a transparent and extensible recipe for building cutting-edge video generation models, we aim to empower future research and accelerate progress toward more versatile and reliable video generation solutions.
- Abstract(参考訳): ビデオ生成の分野は目覚ましい進歩を遂げているが、堅牢でスケーラブルなモデルの開発を導くための、明確で体系的なレシピの必要性は、いまだに迫られている。
本稿では,モデルアーキテクチャ,トレーニングレシピ,データキュレーション戦略の相互運用を体系的に検討し,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法STIVについて述べる。
フレーム交換により,画像条件を拡散変換器 (DiT) に統合し, 共同画像・テキスト・コンディショナリ・クラシファイアフリーガイダンスによるテキスト条件付けを取り入れた。
この設計により、STIVはT2V(text-to-video)とTI2V(text-image-to-video)の両方のタスクを同時に実行できる。
さらに、STIVは、ビデオ予測、フレーム補間、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
T2I、T2V、TI2Vに関する包括的なアブレーション研究により、STIVは単純な設計にもかかわらず高い性能を示した。
512の解像度を持つ8.7BモデルはVBench T2Vで83.1に達し、CogVideoX-5B、Pika、Kling、Gen-3といった主要なオープンソースモデルとクローズドソースモデルの両方を上回っている。
同じサイズのモデルでも、512の解像度でVBench I2Vタスクで90.1の最先端結果が得られる。
最先端の映像生成モデルを構築するための透明で拡張可能なレシピを提供することで、今後の研究を促進し、より汎用的で信頼性の高い映像生成ソリューションへの進歩を加速することを目指している。
関連論文リスト
- FrameBridge: Improving Image-to-Video Generation with Bridge Models [23.19370431940568]
I2V(Image-to-Video)生成はビデオ合成に広く応用され,注目が集まっている。
本稿では, FrameBridgeについて, 与えられた静止画像をビデオの先行画像とし, それらの間のトラクタブルブリッジモデルを確立する。
本研究では,拡散型T2VモデルのFrameBridgeへの微調整効率を向上し,橋梁型I2Vモデルの合成品質を向上させる2つの手法,SNR- Fine-tuning (SAF) とNeural priorを提案する。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - VideoCrafter1: Open Diffusion Models for High-Quality Video Generation [97.5767036934979]
高品質ビデオ生成のための2つの拡散モデル、すなわち、テキスト・ツー・ビデオ(T2V)と画像・ツー・ビデオ(I2V)モデルを導入する。
T2Vモデルは与えられたテキスト入力に基づいてビデオを合成し、I2Vモデルは追加のイメージ入力を含む。
提案したT2Vモデルは,解像度が1024×576$のリアルで映像品質の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-30T13:12:40Z) - LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。