論文の概要: A Recipe for Scaling up Text-to-Video Generation with Text-free Videos
- arxiv url: http://arxiv.org/abs/2312.15770v1
- Date: Mon, 25 Dec 2023 16:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:29:10.971949
- Title: A Recipe for Scaling up Text-to-Video Generation with Text-free Videos
- Title(参考訳): テキストフリービデオによるテキスト・ビデオ生成のスケールアップ
- Authors: Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya
Zhang, Yujun Shen, Changxin Gao, Nong Sang
- Abstract要約: 拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
- 参考スコア(独自算出の注目度): 72.59262815400928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based text-to-video generation has witnessed impressive progress in
the past year yet still falls behind text-to-image generation. One of the key
reasons is the limited scale of publicly available data (e.g., 10M video-text
pairs in WebVid10M vs. 5B image-text pairs in LAION), considering the high cost
of video captioning. Instead, it could be far easier to collect unlabeled clips
from video platforms like YouTube. Motivated by this, we come up with a novel
text-to-video generation framework, termed TF-T2V, which can directly learn
with text-free videos. The rationale behind is to separate the process of text
decoding from that of temporal modeling. To this end, we employ a content
branch and a motion branch, which are jointly optimized with weights shared.
Following such a pipeline, we study the effect of doubling the scale of
training set (i.e., video-only WebVid10M) with some randomly collected
text-free videos and are encouraged to observe the performance improvement (FID
from 9.67 to 8.19 and FVD from 484 to 441), demonstrating the scalability of
our approach. We also find that our model could enjoy sustainable performance
gain (FID from 8.19 to 7.64 and FVD from 441 to 366) after reintroducing some
text labels for training. Finally, we validate the effectiveness and
generalizability of our ideology on both native text-to-video generation and
compositional video synthesis paradigms. Code and models will be publicly
available at https://tf-t2v.github.io/.
- Abstract(参考訳): 拡散ベースのテキスト・ビデオ・ジェネレーションは、過去1年で目覚ましい進歩を遂げた。
主要な理由の1つは、ビデオキャプションのコストが高いことを考慮して、公開データの限られた規模(例えば、WebVid10MとLAIONの5B画像テキストペア)である。
代わりに、youtubeのようなビデオプラットフォームからラベルなしのクリップを集めるのがずっと簡単になるかもしれない。
tf-t2vという,テキストフリービデオで直接学習可能な,新たなテキスト対ビデオ生成フレームワークを考案しました。
背景にある理論的根拠は、テキストデコーディングのプロセスと、時間的モデリングのプロセスを切り離すことである。
この目的のために,コンテンツブランチとモーションブランチを併用し,重みの共有を共同で最適化する。
このようなパイプラインに続いて,ランダムに収集したテキストフリービデオを用いて,トレーニングセット(ビデオのみのwebvid10m)のスケールを2倍にすることで,パフォーマンス向上(5.67~8.19,fvd:484~441)の観察を奨励し,このアプローチのスケーラビリティを実証した。
また,本モデルでは,トレーニング用テキストラベルの再導入により,持続的なパフォーマンス向上(FID:8.19から7.64,FVD:41から366)を享受できることがわかった。
最後に、ネイティブテキスト・ビデオ生成と合成ビデオ合成のパラダイムにおけるイデオロギーの有効性と一般化性を検証する。
コードとモデルはhttps://tf-t2v.github.io/で公開される。
関連論文リスト
- Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement
Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。
新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。
また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:43:01Z) - X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval [26.581384985173116]
テキスト・ビデオ検索では,テキストとビデオの相互類似性を学習することが目的である。
本稿では,テキストとビデオのフレーム間の関係を理由として,X-Poolと呼ばれるモーダルなアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-03-28T20:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。