Fugu-MT 論文翻訳(概要): CelebV-Text: A Large-Scale Facial Text-Video Dataset

論文の概要: CelebV-Text: A Large-Scale Facial Text-Video Dataset

arxiv url: http://arxiv.org/abs/2303.14717v1
Date: Sun, 26 Mar 2023 13:06:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 18:02:19.292572
Title: CelebV-Text: A Large-Scale Facial Text-Video Dataset
Title（参考訳）: celebv-text:大規模顔テキストビデオデータセット
Authors: Jianhui Yu, Hao Zhu, Liming Jiang, Chen Change Loy, Weidong Cai, Wayne Wu
Abstract要約: CelebV-Textは、顔テキストとビデオのペアの大規模で多様で高品質なデータセットである。 CelebV-Textは、7万本の顔ビデオクリップと多様なビジュアルコンテンツで構成され、それぞれに半自動テキスト生成戦略を用いて生成された20のテキストをペアリングする。他のデータセットよりもCelebV-Textの方が優れていることは、ビデオ、テキスト、およびテキスト-ビデオ関連性の包括的な統計分析によって示される。
参考スコア（独自算出の注目度）: 91.22496444328151
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-driven generation models are flourishing in video generation and editing. However, face-centric text-to-video generation remains a challenge due to the lack of a suitable dataset containing high-quality videos and highly relevant texts. This paper presents CelebV-Text, a large-scale, diverse, and high-quality dataset of facial text-video pairs, to facilitate research on facial text-to-video generation tasks. CelebV-Text comprises 70,000 in-the-wild face video clips with diverse visual content, each paired with 20 texts generated using the proposed semi-automatic text generation strategy. The provided texts are of high quality, describing both static and dynamic attributes precisely. The superiority of CelebV-Text over other datasets is demonstrated via comprehensive statistical analysis of the videos, texts, and text-video relevance. The effectiveness and potential of CelebV-Text are further shown through extensive self-evaluation. A benchmark is constructed with representative methods to standardize the evaluation of the facial text-to-video generation task. All data and models are publicly available.
Abstract（参考訳）: テキスト駆動生成モデルはビデオ生成と編集で栄えている。しかし、高品質なビデオや関連性の高いテキストを含む適切なデータセットがないため、顔中心のテキスト対ビデオ生成は依然として課題である。本稿では,顔テキスト対ビデオ生成タスクの研究を容易にするために,顔テキスト対ビデオペアの大規模,多様,高品質なデータセットであるcelebv-textを提案する。 CelebV-Textは、7万本の顔ビデオクリップと多様なビジュアルコンテンツで構成され、それぞれに半自動テキスト生成戦略を用いて生成された20のテキストをペアリングする。提供されるテキストは高品質で、静的属性と動的属性の両方を正確に記述する。 celebv-textが他のデータセットよりも優れていることは、ビデオ、テキスト、テキストビデオの包括的な統計分析を通じて証明される。 celebv-textの有効性とポテンシャルは、広範な自己評価を通じてさらに示される。顔テキスト対ビデオ生成タスクの評価を標準化する代表的な手法を用いて、ベンチマークを構築する。すべてのデータとモデルが公開されている。

関連論文リスト

VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文参考訳（メタデータ） (2025-05-28T19:39:35Z)
T2VTextBench: A Human Evaluation Benchmark for Textual Control in Video Generation Models [12.120541052871486]
T2VTextBenchは、画面上のテキストの忠実度と時間的一貫性を評価するための最初の人間評価ベンチマークである。オープンソースソリューションから商用製品まで,10の最先端システムを評価しました。
論文参考訳（メタデータ） (2025-05-08T04:49:52Z)
Expertized Caption Auto-Enhancement for Video-Text Retrieval [10.250004732070494]
本稿では,自動字幕強調手法を提案する。本手法は完全にデータ駆動型であり,データ収集や計算処理の負荷を軽減できるだけでなく,自己適応性も向上する。 MSR-VTTでは68.5%,MSVDでは68.1%,DiDeMoでは62.0%,Top-1リコール精度は68.5%であった。
論文参考訳（メタデータ） (2025-02-05T04:51:46Z)
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。 Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文参考訳（メタデータ） (2024-06-25T17:59:41Z)
Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文参考訳（メタデータ） (2024-06-19T20:16:17Z)
Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文参考訳（メタデータ） (2024-01-15T15:42:39Z)
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文参考訳（メタデータ） (2024-01-01T18:58:42Z)
In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文参考訳（メタデータ） (2023-09-16T08:48:21Z)
StoryBench: A Multifaceted Benchmark for Continuous Story Visualization [42.439670922813434]
StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
論文参考訳（メタデータ） (2023-08-22T17:53:55Z)
TVPR: Text-to-Video Person Retrieval and a New Benchmark [10.960048626531993]
本稿では,新しいテキスト・ツー・ビデオ・パーソナリティ検索(TVPR)タスクを提案する。自然言語で人ビデオを記述するデータセットやベンチマークは存在しないため、大規模なクロスモーダル人ビデオデータセットを構築する。 MFGF(Multielement Feature Guided Fragments Learning)戦略を導入する。
論文参考訳（メタデータ） (2023-07-14T06:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。