論文の概要: GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions
- arxiv url: http://arxiv.org/abs/2104.14806v1
- Date: Fri, 30 Apr 2021 07:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:40:17.987062
- Title: GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions
- Title(参考訳): GODIVA:nAturalの説明からオープンなDomaInビデオを生成する
- Authors: Chenfei Wu, Lun Huang, Qianxi Zhang, Binyang Li, Lei Ji, Fan Yang,
Guillermo Sapiro, Nan Duan
- Abstract要約: テキストから動画を自動レグレッシブに生成できるオープンドメインのテキスト・トゥ・ビデオプリトレーニングモデル「GODIVA」を提案する。
Howto100Mは、1億1600万以上のテキストビデオペアを含む大規模なテキストビデオデータセットです。
実験により、GODIVAは下流のビデオ生成タスクで微調整できるだけでなく、目に見えないテキストでも優れたゼロショット機能を持つことが示された。
- 参考スコア(独自算出の注目度): 45.630274235982924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating videos from text is a challenging task due to its high
computational requirements for training and infinite possible answers for
evaluation. Existing works typically experiment on simple or small datasets,
where the generalization ability is quite limited. In this work, we propose
GODIVA, an open-domain text-to-video pretrained model that can generate videos
from text in an auto-regressive manner using a three-dimensional sparse
attention mechanism. We pretrain our model on Howto100M, a large-scale
text-video dataset that contains more than 136 million text-video pairs.
Experiments show that GODIVA not only can be fine-tuned on downstream video
generation tasks, but also has a good zero-shot capability on unseen texts. We
also propose a new metric called Relative Matching (RM) to automatically
evaluate the video generation quality. Several challenges are listed and
discussed as future work.
- Abstract(参考訳): テキストからビデオを生成することは、トレーニングのための高い計算要求と、評価のための無限の答えのために難しい課題である。
既存の作業は通常、一般化能力が非常に限られている単純なデータセットや小さなデータセットで実験する。
本研究では,3次元のスパースアテンション機構を用いて,テキストから映像を自動回帰的に生成できるオープンドメイン型テキスト・ビデオ事前学習モデルGODIVAを提案する。
howto100mは、1億3600万以上のテキストビデオペアを含む大規模なテキストビデオデータセットです。
実験によると、GODIVAは下流のビデオ生成タスクで微調整できるだけでなく、目に見えないテキストでも優れたゼロショット機能を持つ。
また、ビデオ生成品質を自動評価するRM(Relative Matching)と呼ばれる新しい指標を提案する。
いくつかの課題がリストアップされ、今後の課題として議論される。
関連論文リスト
- Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Analyzing Zero-Shot Abilities of Vision-Language Models on Video
Understanding Tasks [6.925770576386087]
本稿では,ゼロショット環境における映像理解タスクの評価において,画像テキストモデルの一般化能力について詳細に検討する。
実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示すことがわかった。
これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。
論文 参考訳(メタデータ) (2023-10-07T20:57:54Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。