論文の概要: CelebV-Text: A Large-Scale Facial Text-Video Dataset
- arxiv url: http://arxiv.org/abs/2303.14717v1
- Date: Sun, 26 Mar 2023 13:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 18:02:19.292572
- Title: CelebV-Text: A Large-Scale Facial Text-Video Dataset
- Title(参考訳): celebv-text:大規模顔テキストビデオデータセット
- Authors: Jianhui Yu, Hao Zhu, Liming Jiang, Chen Change Loy, Weidong Cai, Wayne
Wu
- Abstract要約: CelebV-Textは、顔テキストとビデオのペアの大規模で多様で高品質なデータセットである。
CelebV-Textは、7万本の顔ビデオクリップと多様なビジュアルコンテンツで構成され、それぞれに半自動テキスト生成戦略を用いて生成された20のテキストをペアリングする。
他のデータセットよりもCelebV-Textの方が優れていることは、ビデオ、テキスト、およびテキスト-ビデオ関連性の包括的な統計分析によって示される。
- 参考スコア(独自算出の注目度): 91.22496444328151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven generation models are flourishing in video generation and
editing. However, face-centric text-to-video generation remains a challenge due
to the lack of a suitable dataset containing high-quality videos and highly
relevant texts. This paper presents CelebV-Text, a large-scale, diverse, and
high-quality dataset of facial text-video pairs, to facilitate research on
facial text-to-video generation tasks. CelebV-Text comprises 70,000 in-the-wild
face video clips with diverse visual content, each paired with 20 texts
generated using the proposed semi-automatic text generation strategy. The
provided texts are of high quality, describing both static and dynamic
attributes precisely. The superiority of CelebV-Text over other datasets is
demonstrated via comprehensive statistical analysis of the videos, texts, and
text-video relevance. The effectiveness and potential of CelebV-Text are
further shown through extensive self-evaluation. A benchmark is constructed
with representative methods to standardize the evaluation of the facial
text-to-video generation task. All data and models are publicly available.
- Abstract(参考訳): テキスト駆動生成モデルはビデオ生成と編集で栄えている。
しかし、高品質なビデオや関連性の高いテキストを含む適切なデータセットがないため、顔中心のテキスト対ビデオ生成は依然として課題である。
本稿では,顔テキスト対ビデオ生成タスクの研究を容易にするために,顔テキスト対ビデオペアの大規模,多様,高品質なデータセットであるcelebv-textを提案する。
CelebV-Textは、7万本の顔ビデオクリップと多様なビジュアルコンテンツで構成され、それぞれに半自動テキスト生成戦略を用いて生成された20のテキストをペアリングする。
提供されるテキストは高品質で、静的属性と動的属性の両方を正確に記述する。
celebv-textが他のデータセットよりも優れていることは、ビデオ、テキスト、テキストビデオの包括的な統計分析を通じて証明される。
celebv-textの有効性とポテンシャルは、広範な自己評価を通じてさらに示される。
顔テキスト対ビデオ生成タスクの評価を標準化する代表的な手法を用いて、ベンチマークを構築する。
すべてのデータとモデルが公開されている。
関連論文リスト
- Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - StoryBench: A Multifaceted Benchmark for Continuous Story Visualization [42.439670922813434]
StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。
我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。
従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
論文 参考訳(メタデータ) (2023-08-22T17:53:55Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Bridging Vision and Language from the Video-to-Text Perspective: A
Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。
主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。
最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文 参考訳(メタデータ) (2021-03-27T02:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。