論文の概要: MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators
- arxiv url: http://arxiv.org/abs/2404.05014v1
- Date: Sun, 7 Apr 2024 16:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 16:12:42.955907
- Title: MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators
- Title(参考訳): MagicTime: メタモルフィックシミュレータとしてのタイムラプスビデオ生成モデル
- Authors: Shenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo,
- Abstract要約: 我々は,リアルタイムな物理知識をタイムラプスビデオから学習し,メタモルフィック生成を実装する,タイムラプスビデオ生成モデルであるtextbfMagicTimeを提案する。
実験は、高品質でダイナミックなメタモルフィックビデオを生成するためにMagicTimeの優位性と有効性を示す。
- 参考スコア(独自算出の注目度): 56.01348424615965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Text-to-Video generation (T2V) have achieved remarkable success in synthesizing high-quality general videos from textual descriptions. A largely overlooked problem in T2V is that existing models have not adequately encoded physical knowledge of the real world, thus generated videos tend to have limited motion and poor variations. In this paper, we propose \textbf{MagicTime}, a metamorphic time-lapse video generation model, which learns real-world physics knowledge from time-lapse videos and implements metamorphic generation. First, we design a MagicAdapter scheme to decouple spatial and temporal training, encode more physical knowledge from metamorphic videos, and transform pre-trained T2V models to generate metamorphic videos. Second, we introduce a Dynamic Frames Extraction strategy to adapt to metamorphic time-lapse videos, which have a wider variation range and cover dramatic object metamorphic processes, thus embodying more physical knowledge than general videos. Finally, we introduce a Magic Text-Encoder to improve the understanding of metamorphic video prompts. Furthermore, we create a time-lapse video-text dataset called \textbf{ChronoMagic}, specifically curated to unlock the metamorphic video generation ability. Extensive experiments demonstrate the superiority and effectiveness of MagicTime for generating high-quality and dynamic metamorphic videos, suggesting time-lapse video generation is a promising path toward building metamorphic simulators of the physical world.
- Abstract(参考訳): 近年のテキスト・ツー・ビデオ・ジェネラル・ジェネラル・ビデオ(T2V)の進歩は,テキスト記述から高品質な汎用ビデオの合成において顕著な成功を収めている。
T2Vのほとんど見落とされた問題は、既存のモデルが現実世界の物理的知識を十分にエンコードしていないことである。
本稿では,実世界の物理知識をタイムラプスビデオから学習し,メタモルフィック生成を実装するメタモルフィック・タイムラプスビデオ生成モデルである \textbf{MagicTime} を提案する。
まず、空間的および時間的トレーニングを分離し、メタモルフィックビデオからより多くの物理知識をエンコードし、事前学習されたT2Vモデルを変換してメタモルフィックビデオを生成するMagicAdapterスキームを設計する。
第2に、動的フレーム抽出手法を導入し、より広い変動範囲を持ち、劇的なオブジェクトのメタモルフィックプロセスをカバーし、一般的なビデオよりも物理的な知識を具現化する。
最後に、メタモルフィックビデオプロンプトの理解を改善するためにMagic Text-Encoderを導入する。
さらに,メタモルフィックビデオ生成能力を解き放つために特別にキュレートされた,‘textbf{ChronoMagic}’というタイムラプスビデオテキストデータセットを作成する。
広汎な実験は、高品質でダイナミックなメタモルフィックビデオを生成するためにMagicTimeの優位性と有効性を実証し、物理世界のメタモルフィックシミュレータを構築するための、タイムラプスビデオ生成が有望な道であることを示唆している。
関連論文リスト
- Motion Control for Enhanced Complex Action Video Generation [17.98485830881648]
既存のテキスト・ツー・ビデオ(T2V)モデルは、十分に発音または複雑なアクションでビデオを生成するのに苦労することが多い。
そこで本稿では, 高精度な流体アクションで長編ビデオを生成するための新しいフレームワークであるMVideoを提案する。
MVideoは、追加の動作条件入力としてマスクシーケンスを組み込むことで、テキストプロンプトの制限を克服する。
論文 参考訳(メタデータ) (2024-11-13T04:20:45Z) - ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation [57.651809298512276]
ChronoMagic-Benchは、テキスト・トゥ・ビデオ(T2V)生成ベンチマークである。
モデルがメタモルフィックな振幅と時間的コヒーレンスを持つタイムラプスビデオを生成する能力に焦点を当てている。
10種類の代表的なT2Vモデルの手動評価を行い、その強度と弱点を明らかにした。
大規模なChronoMagic-Proデータセットを作成し、460kの高品質な720pタイムラプスビデオを含む。
論文 参考訳(メタデータ) (2024-06-26T17:50:47Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。