論文の概要: Searching Priors Makes Text-to-Video Synthesis Better
- arxiv url: http://arxiv.org/abs/2406.03215v1
- Date: Wed, 5 Jun 2024 12:53:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:30:28.132011
- Title: Searching Priors Makes Text-to-Video Synthesis Better
- Title(参考訳): テキストとビデオの合成がより良くなる検索プライオリティ
- Authors: Haoran Cheng, Liang Peng, Linxuan Xia, Yuepeng Hu, Hengjia Li, Qinglin Lu, Xiaofei He, Boxi Wu,
- Abstract要約: 一般的なテキスト・ツー・ビデオ(T2V)生成プロセスを検索ベースで生成するパイプラインとして再構築する。
モデルトレーニングをスケールアップする代わりに、既存の動画を前向きのデータベースとして使用しています。
- 参考スコア(独自算出の注目度): 16.314105189868588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant advancements in video diffusion models have brought substantial progress to the field of text-to-video (T2V) synthesis. However, existing T2V synthesis model struggle to accurately generate complex motion dynamics, leading to a reduction in video realism. One possible solution is to collect massive data and train the model on it, but this would be extremely expensive. To alleviate this problem, in this paper, we reformulate the typical T2V generation process as a search-based generation pipeline. Instead of scaling up the model training, we employ existing videos as the motion prior database. Specifically, we divide T2V generation process into two steps: (i) For a given prompt input, we search existing text-video datasets to find videos with text labels that closely match the prompt motions. We propose a tailored search algorithm that emphasizes object motion features. (ii) Retrieved videos are processed and distilled into motion priors to fine-tune a pre-trained base T2V model, followed by generating desired videos using input prompt. By utilizing the priors gleaned from the searched videos, we enhance the realism of the generated videos' motion. All operations can be finished on a single NVIDIA RTX 4090 GPU. We validate our method against state-of-the-art T2V models across diverse prompt inputs. The code will be public.
- Abstract(参考訳): ビデオ拡散モデルの顕著な進歩は、テキスト・ツー・ビデオ(T2V)合成の分野に大きな進歩をもたらした。
しかし、既存のT2V合成モデルは、複雑な動きのダイナミクスを正確に生成するのに苦労し、ビデオリアリズムの低減につながった。
可能な解決策の1つは、大量のデータを収集し、その上でモデルをトレーニングすることだが、これは非常に高価だろう。
この問題を軽減するため,本論文では,一般的なT2V生成プロセスを検索ベース生成パイプラインとして再構成する。
モデルトレーニングをスケールアップする代わりに、既存の動画を前向きのデータベースとして使用しています。
具体的には、T2V生成プロセスを2つのステップに分けます。
i) 与えられたプロンプト入力に対して,既存のテキストビデオデータセットを検索して,プロンプト動作と密接に一致するテキストラベル付きビデオを探す。
本研究では,物体の運動特徴を強調するアルゴリズムを提案する。
(II) 検索ビデオは、予め訓練されたベースT2Vモデルを微調整し、入力プロンプトを用いて所望のビデオを生成する前に処理・蒸留される。
検索したビデオから得られた先行情報を利用することで、生成されたビデオの動きのリアリズムを高める。
すべての操作は1つのNVIDIA RTX 4090 GPUで完了することができる。
我々は,多種多様なインプットを用いた最先端T2Vモデルに対して本手法の有効性を検証した。
コードは公開されます。
関連論文リスト
- Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.01510927611452]
我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。
Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文 参考訳(メタデータ) (2025-02-14T15:58:10Z) - MotiF: Making Text Count in Image Animation with Motion Focal Loss [27.950633331625284]
Text-Image-to-Video (TI2V) の生成は、テキスト記述に従って画像からビデオを生成することを目的としている。
我々は、モデル学習をより多くの動きを持つ領域に誘導する、シンプルで効果的なアプローチであるMotiFを紹介した。
運動熱マップを生成するために光学的流れを使用し、運動の強度に応じて損失を重み付けする。
論文 参考訳(メタデータ) (2024-12-20T18:57:06Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。