論文の概要: A Recipe for Scaling up Text-to-Video Generation with Text-free Videos
- arxiv url: http://arxiv.org/abs/2312.15770v1
- Date: Mon, 25 Dec 2023 16:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:29:10.971949
- Title: A Recipe for Scaling up Text-to-Video Generation with Text-free Videos
- Title(参考訳): テキストフリービデオによるテキスト・ビデオ生成のスケールアップ
- Authors: Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya
Zhang, Yujun Shen, Changxin Gao, Nong Sang
- Abstract要約: 拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
- 参考スコア(独自算出の注目度): 72.59262815400928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based text-to-video generation has witnessed impressive progress in
the past year yet still falls behind text-to-image generation. One of the key
reasons is the limited scale of publicly available data (e.g., 10M video-text
pairs in WebVid10M vs. 5B image-text pairs in LAION), considering the high cost
of video captioning. Instead, it could be far easier to collect unlabeled clips
from video platforms like YouTube. Motivated by this, we come up with a novel
text-to-video generation framework, termed TF-T2V, which can directly learn
with text-free videos. The rationale behind is to separate the process of text
decoding from that of temporal modeling. To this end, we employ a content
branch and a motion branch, which are jointly optimized with weights shared.
Following such a pipeline, we study the effect of doubling the scale of
training set (i.e., video-only WebVid10M) with some randomly collected
text-free videos and are encouraged to observe the performance improvement (FID
from 9.67 to 8.19 and FVD from 484 to 441), demonstrating the scalability of
our approach. We also find that our model could enjoy sustainable performance
gain (FID from 8.19 to 7.64 and FVD from 441 to 366) after reintroducing some
text labels for training. Finally, we validate the effectiveness and
generalizability of our ideology on both native text-to-video generation and
compositional video synthesis paradigms. Code and models will be publicly
available at https://tf-t2v.github.io/.
- Abstract(参考訳): 拡散ベースのテキスト・ビデオ・ジェネレーションは、過去1年で目覚ましい進歩を遂げた。
主要な理由の1つは、ビデオキャプションのコストが高いことを考慮して、公開データの限られた規模(例えば、WebVid10MとLAIONの5B画像テキストペア)である。
代わりに、youtubeのようなビデオプラットフォームからラベルなしのクリップを集めるのがずっと簡単になるかもしれない。
tf-t2vという,テキストフリービデオで直接学習可能な,新たなテキスト対ビデオ生成フレームワークを考案しました。
背景にある理論的根拠は、テキストデコーディングのプロセスと、時間的モデリングのプロセスを切り離すことである。
この目的のために,コンテンツブランチとモーションブランチを併用し,重みの共有を共同で最適化する。
このようなパイプラインに続いて,ランダムに収集したテキストフリービデオを用いて,トレーニングセット(ビデオのみのwebvid10m)のスケールを2倍にすることで,パフォーマンス向上(5.67~8.19,fvd:484~441)の観察を奨励し,このアプローチのスケーラビリティを実証した。
また,本モデルでは,トレーニング用テキストラベルの再導入により,持続的なパフォーマンス向上(FID:8.19から7.64,FVD:41から366)を享受できることがわかった。
最後に、ネイティブテキスト・ビデオ生成と合成ビデオ合成のパラダイムにおけるイデオロギーの有効性と一般化性を検証する。
コードとモデルはhttps://tf-t2v.github.io/で公開される。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [70.48740920699194]
テキストとビデオトークンを共同で最適化し,「ビデオ条件付きテキスト」埋め込みを生成するVicTRを提案する。
本手法は,視覚的な補助テキストの形で,自由に利用できるセマンティック情報を活用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement
Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。
新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。
また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:43:01Z) - X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval [26.581384985173116]
テキスト・ビデオ検索では,テキストとビデオの相互類似性を学習することが目的である。
本稿では,テキストとビデオのフレーム間の関係を理由として,X-Poolと呼ばれるモーダルなアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-03-28T20:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。