論文の概要: CelebV-Text: A Large-Scale Facial Text-Video Dataset
- arxiv url: http://arxiv.org/abs/2303.14717v1
- Date: Sun, 26 Mar 2023 13:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 18:02:19.292572
- Title: CelebV-Text: A Large-Scale Facial Text-Video Dataset
- Title(参考訳): celebv-text:大規模顔テキストビデオデータセット
- Authors: Jianhui Yu, Hao Zhu, Liming Jiang, Chen Change Loy, Weidong Cai, Wayne
Wu
- Abstract要約: CelebV-Textは、顔テキストとビデオのペアの大規模で多様で高品質なデータセットである。
CelebV-Textは、7万本の顔ビデオクリップと多様なビジュアルコンテンツで構成され、それぞれに半自動テキスト生成戦略を用いて生成された20のテキストをペアリングする。
他のデータセットよりもCelebV-Textの方が優れていることは、ビデオ、テキスト、およびテキスト-ビデオ関連性の包括的な統計分析によって示される。
- 参考スコア(独自算出の注目度): 91.22496444328151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven generation models are flourishing in video generation and
editing. However, face-centric text-to-video generation remains a challenge due
to the lack of a suitable dataset containing high-quality videos and highly
relevant texts. This paper presents CelebV-Text, a large-scale, diverse, and
high-quality dataset of facial text-video pairs, to facilitate research on
facial text-to-video generation tasks. CelebV-Text comprises 70,000 in-the-wild
face video clips with diverse visual content, each paired with 20 texts
generated using the proposed semi-automatic text generation strategy. The
provided texts are of high quality, describing both static and dynamic
attributes precisely. The superiority of CelebV-Text over other datasets is
demonstrated via comprehensive statistical analysis of the videos, texts, and
text-video relevance. The effectiveness and potential of CelebV-Text are
further shown through extensive self-evaluation. A benchmark is constructed
with representative methods to standardize the evaluation of the facial
text-to-video generation task. All data and models are publicly available.
- Abstract(参考訳): テキスト駆動生成モデルはビデオ生成と編集で栄えている。
しかし、高品質なビデオや関連性の高いテキストを含む適切なデータセットがないため、顔中心のテキスト対ビデオ生成は依然として課題である。
本稿では,顔テキスト対ビデオ生成タスクの研究を容易にするために,顔テキスト対ビデオペアの大規模,多様,高品質なデータセットであるcelebv-textを提案する。
CelebV-Textは、7万本の顔ビデオクリップと多様なビジュアルコンテンツで構成され、それぞれに半自動テキスト生成戦略を用いて生成された20のテキストをペアリングする。
提供されるテキストは高品質で、静的属性と動的属性の両方を正確に記述する。
celebv-textが他のデータセットよりも優れていることは、ビデオ、テキスト、テキストビデオの包括的な統計分析を通じて証明される。
celebv-textの有効性とポテンシャルは、広範な自己評価を通じてさらに示される。
顔テキスト対ビデオ生成タスクの評価を標準化する代表的な手法を用いて、ベンチマークを構築する。
すべてのデータとモデルが公開されている。
関連論文リスト
- T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。
Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。
また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (2024-06-25T17:59:41Z) - Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - StoryBench: A Multifaceted Benchmark for Continuous Story Visualization [42.439670922813434]
StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。
我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。
従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
論文 参考訳(メタデータ) (2023-08-22T17:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。