Fugu-MT 論文翻訳(概要): Searching Priors Makes Text-to-Video Synthesis Better

論文の概要: Searching Priors Makes Text-to-Video Synthesis Better

arxiv url: http://arxiv.org/abs/2406.03215v1
Date: Wed, 5 Jun 2024 12:53:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 18:30:28.132011
Title: Searching Priors Makes Text-to-Video Synthesis Better
Title（参考訳）: テキストとビデオの合成がより良くなる検索プライオリティ
Authors: Haoran Cheng, Liang Peng, Linxuan Xia, Yuepeng Hu, Hengjia Li, Qinglin Lu, Xiaofei He, Boxi Wu,
Abstract要約: 一般的なテキスト・ツー・ビデオ(T2V)生成プロセスを検索ベースで生成するパイプラインとして再構築する。モデルトレーニングをスケールアップする代わりに、既存の動画を前向きのデータベースとして使用しています。
参考スコア（独自算出の注目度）: 16.314105189868588
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Significant advancements in video diffusion models have brought substantial progress to the field of text-to-video (T2V) synthesis. However, existing T2V synthesis model struggle to accurately generate complex motion dynamics, leading to a reduction in video realism. One possible solution is to collect massive data and train the model on it, but this would be extremely expensive. To alleviate this problem, in this paper, we reformulate the typical T2V generation process as a search-based generation pipeline. Instead of scaling up the model training, we employ existing videos as the motion prior database. Specifically, we divide T2V generation process into two steps: (i) For a given prompt input, we search existing text-video datasets to find videos with text labels that closely match the prompt motions. We propose a tailored search algorithm that emphasizes object motion features. (ii) Retrieved videos are processed and distilled into motion priors to fine-tune a pre-trained base T2V model, followed by generating desired videos using input prompt. By utilizing the priors gleaned from the searched videos, we enhance the realism of the generated videos' motion. All operations can be finished on a single NVIDIA RTX 4090 GPU. We validate our method against state-of-the-art T2V models across diverse prompt inputs. The code will be public.
Abstract（参考訳）: ビデオ拡散モデルの顕著な進歩は、テキスト・ツー・ビデオ(T2V)合成の分野に大きな進歩をもたらした。しかし、既存のT2V合成モデルは、複雑な動きのダイナミクスを正確に生成するのに苦労し、ビデオリアリズムの低減につながった。可能な解決策の1つは、大量のデータを収集し、その上でモデルをトレーニングすることだが、これは非常に高価だろう。この問題を軽減するため,本論文では,一般的なT2V生成プロセスを検索ベース生成パイプラインとして再構成する。モデルトレーニングをスケールアップする代わりに、既存の動画を前向きのデータベースとして使用しています。具体的には、T2V生成プロセスを2つのステップに分けます。 i) 与えられたプロンプト入力に対して,既存のテキストビデオデータセットを検索して,プロンプト動作と密接に一致するテキストラベル付きビデオを探す。本研究では,物体の運動特徴を強調するアルゴリズムを提案する。 (II) 検索ビデオは、予め訓練されたベースT2Vモデルを微調整し、入力プロンプトを用いて所望のビデオを生成する前に処理・蒸留される。検索したビデオから得られた先行情報を利用することで、生成されたビデオの動きのリアリズムを高める。すべての操作は1つのNVIDIA RTX 4090 GPUで完了することができる。我々は,多種多様なインプットを用いた最先端T2Vモデルに対して本手法の有効性を検証した。コードは公開されます。

関連論文リスト

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization [63.37161241355025]
Video-MSGはマルチモーダル計画と構造化雑音初期化に基づくT2V生成のトレーニング不要手法である。ノイズインバージョンとデノベーションを通じて、ビデオスケッチで下流のT2V拡散モデルを導出する。ビデオMSGは、推論時間にメモリを追加して微調整や注意操作を必要としないため、大きなT2Vモデルを採用するのが簡単である。
論文参考訳（メタデータ） (2025-04-11T15:41:43Z)
Frame-wise Conditioning Adaptation for Fine-Tuning Diffusion Models in Text-to-Video Prediction [36.82594554832902]
テキストビデオ予測(英: text-video prediction、TVP)は、後続のビデオフレームを生成するモデルを必要とする下流のビデオ生成タスクである。フレームワイドコンディショニング適応 (FCA) をラベル付けした適応型戦略を提案する。我々は、初期フレームを余剰条件として組み込んだT2Vモデルを微調整するためにFCAを使用する。
論文参考訳（メタデータ） (2025-03-17T09:06:21Z)
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.01510927611452]
我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。 Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。 Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文参考訳（メタデータ） (2025-02-14T15:58:10Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文参考訳（メタデータ） (2024-06-10T17:02:08Z)
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文参考訳（メタデータ） (2023-12-25T16:37:39Z)
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文参考訳（メタデータ） (2023-10-16T19:03:19Z)
Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文参考訳（メタデータ） (2023-05-23T09:03:19Z)
Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文参考訳（メタデータ） (2022-12-22T09:43:36Z)
Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文参考訳（メタデータ） (2022-09-29T13:59:46Z)
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文参考訳（メタデータ） (2021-11-24T18:31:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。