Fugu-MT 論文翻訳(概要): VideoTetris: Towards Compositional Text-to-Video Generation

論文の概要: VideoTetris: Towards Compositional Text-to-Video Generation

arxiv url: http://arxiv.org/abs/2406.04277v2
Date: Mon, 14 Oct 2024 07:20:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 17:54:09.528274
Title: VideoTetris: Towards Compositional Text-to-Video Generation
Title（参考訳）: VideoTetris: 合成テキスト・ビデオ生成を目指して
Authors: Ye Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui,
Abstract要約: VideoTetrisは、合成T2V生成を可能にするフレームワークである。我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
参考スコア（独自算出の注目度）: 45.395598467837374
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have demonstrated great success in text-to-video (T2V) generation. However, existing methods may face challenges when handling complex (long) video generation scenarios that involve multiple objects or dynamic changes in object numbers. To address these limitations, we propose VideoTetris, a novel framework that enables compositional T2V generation. Specifically, we propose spatio-temporal compositional diffusion to precisely follow complex textual semantics by manipulating and composing the attention maps of denoising networks spatially and temporally. Moreover, we propose an enhanced video data preprocessing to enhance the training data regarding motion dynamics and prompt understanding, equipped with a new reference frame attention mechanism to improve the consistency of auto-regressive video generation. Extensive experiments demonstrate that our VideoTetris achieves impressive qualitative and quantitative results in compositional T2V generation. Code is available at: https://github.com/YangLing0818/VideoTetris
Abstract（参考訳）: 拡散モデルは、テキスト・トゥ・ビデオ(T2V)生成において大きな成功を収めている。しかし、既存の手法は、複数のオブジェクトを含む複雑な(長い)ビデオ生成シナリオを扱う場合や、オブジェクト番号の動的変更に直面する可能性がある。これらの制約に対処するために,合成T2V生成を可能にする新しいフレームワークであるVideoTetrisを提案する。具体的には,空間的・時間的に認知ネットワークの注意マップを操作・構成することにより,複雑なテクスチャ意味を正確に追従する時空間構成拡散を提案する。さらに,モーションダイナミックスに関するトレーニングデータを強化し,自動回帰ビデオ生成の一貫性を向上させるための参照フレームアテンション機構を新たに備えた,ビデオデータ前処理の強化を提案する。大規模な実験により, ビデオテトリスは, 合成T2V生成において, 印象的な質的, 定量的な結果が得られることが示された。コードは、https://github.com/YangLing0818/VideoTetrisで入手できる。

関連論文リスト

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization [63.37161241355025]
Video-MSGはマルチモーダル計画と構造化雑音初期化に基づくT2V生成のトレーニング不要手法である。ノイズインバージョンとデノベーションを通じて、ビデオスケッチで下流のT2V拡散モデルを導出する。ビデオMSGは、推論時間にメモリを追加して微調整や注意操作を必要としないため、大きなT2Vモデルを採用するのが簡単である。
論文参考訳（メタデータ） (2025-04-11T15:41:43Z)
Resource-Efficient Motion Control for Video Generation via Dynamic Mask Guidance [2.5941932242768457]
マスク誘導ビデオ生成は、マスクモーションシーケンスを介して映像生成を制御することができる。提案モデルは,テキスト位置マッチングと移動軌跡制御のための前景マスクを組み込むことにより,既存のアーキテクチャを改良する。このアプローチは、ビデオ編集やアートビデオ生成などの様々なビデオ生成タスクに優れ、一貫性と品質の点で従来の手法よりも優れている。
論文参考訳（メタデータ） (2025-03-24T06:53:08Z)
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文参考訳（メタデータ） (2025-03-14T15:36:39Z)
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文参考訳（メタデータ） (2024-03-21T18:27:29Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文参考訳（メタデータ） (2023-12-07T17:59:07Z)
DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文参考訳（メタデータ） (2023-05-23T17:57:09Z)
Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文参考訳（メタデータ） (2023-05-23T09:03:19Z)
Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文参考訳（メタデータ） (2022-09-29T13:59:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。