論文の概要: CelebV-HQ: A Large-Scale Video Facial Attributes Dataset
- arxiv url: http://arxiv.org/abs/2207.12393v1
- Date: Mon, 25 Jul 2022 17:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:58:05.065668
- Title: CelebV-HQ: A Large-Scale Video Facial Attributes Dataset
- Title(参考訳): celebv-hq: 大規模ビデオ顔属性データセット
- Authors: Hao Zhu, Wayne Wu, Wentao Zhu, Liming Jiang, Siwei Tang, Li Zhang,
Ziwei Liu, Chen Change Loy
- Abstract要約: CelebV-HQには35,666本のビデオクリップがあり、解像度は少なくとも512x512で、15,653個のIDが含まれている。
年齢、民族性、明るさ安定性、動きのスムーズさ、頭部の多様性、データ品質の観点から包括的な分析を行う。
その汎用性とポテンシャルは、2つの代表的タスク、すなわち無条件映像生成とビデオ顔属性編集において検証される。
- 参考スコア(独自算出の注目度): 94.31308012569062
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large-scale datasets have played indispensable roles in the recent success of
face generation/editing and significantly facilitated the advances of emerging
research fields. However, the academic community still lacks a video dataset
with diverse facial attribute annotations, which is crucial for the research on
face-related videos. In this work, we propose a large-scale, high-quality, and
diverse video dataset with rich facial attribute annotations, named the
High-Quality Celebrity Video Dataset (CelebV-HQ). CelebV-HQ contains 35,666
video clips with the resolution of 512x512 at least, involving 15,653
identities. All clips are labeled manually with 83 facial attributes, covering
appearance, action, and emotion. We conduct a comprehensive analysis in terms
of age, ethnicity, brightness stability, motion smoothness, head pose
diversity, and data quality to demonstrate the diversity and temporal coherence
of CelebV-HQ. Besides, its versatility and potential are validated on two
representative tasks, i.e., unconditional video generation and video facial
attribute editing. Furthermore, we envision the future potential of CelebV-HQ,
as well as the new opportunities and challenges it would bring to related
research directions. Data, code, and models are publicly available. Project
page: https://celebv-hq.github.io.
- Abstract(参考訳): 大規模なデータセットは、顔生成/編集の成功に欠かせない役割を担い、新興研究分野の進歩を著しく促進してきた。
しかし、学術コミュニティには、顔関連ビデオの研究に欠かせない多様な顔属性アノテーションを備えたビデオデータセットがまだ欠けている。
本研究では,高品質Celebrity Video Dataset (CelebV-HQ) という顔属性アノテーションを用いた大規模で高品質で多様なビデオデータセットを提案する。
celebv-hqには35,666本のビデオクリップがあり、解像度は少なくとも512x512で、身元は15,653である。
すべてのクリップは、83の顔属性で手動でラベル付けされ、外観、アクション、感情をカバーしている。
我々は,CelebV-HQの多様性と時間的コヒーレンスを示すために,年齢,民族性,明るさ安定性,動きの滑らかさ,頭部の多様性,データ品質の総合的な分析を行う。
さらに、その汎用性とポテンシャルは、非条件映像生成と映像顔属性編集という2つの代表的なタスクで検証される。
さらに、我々は、CelebV-HQの将来の可能性と、それに関連する研究の方向性にもたらす新たな機会と課題を構想する。
データ、コード、モデルが公開されている。
プロジェクトページ: https://celebv-hq.github.io
関連論文リスト
- MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z) - FaceVid-1K: A Large-Scale High-Quality Multiracial Human Face Video Dataset [15.917564646478628]
我々はtextbfFaceVid-1K という高品質な多人種顔コレクションを作成している。
我々は,テキスト・トゥ・ビデオ,画像・トゥ・ビデオ,無条件映像生成など,確立されたビデオ生成モデルを用いて実験を行った。
対応するパフォーマンスベンチマークを取得し、公開データセットでトレーニングされたベンチマークと比較し、データセットの優位性を実証する。
論文 参考訳(メタデータ) (2024-09-23T07:27:02Z) - CelebV-Text: A Large-Scale Facial Text-Video Dataset [91.22496444328151]
CelebV-Textは、顔テキストとビデオのペアの大規模で多様で高品質なデータセットである。
CelebV-Textは、7万本の顔ビデオクリップと多様なビジュアルコンテンツで構成され、それぞれに半自動テキスト生成戦略を用いて生成された20のテキストをペアリングする。
他のデータセットよりもCelebV-Textの方が優れていることは、ビデオ、テキスト、およびテキスト-ビデオ関連性の包括的な統計分析によって示される。
論文 参考訳(メタデータ) (2023-03-26T13:06:35Z) - NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory [92.98552727430483]
Narrations-as-Queries (NaQ)は、標準的なビデオテキストナレーションをビデオクエリのローカライゼーションモデルのためのトレーニングデータに変換するデータ拡張戦略である。
NaQが複数のトップモデルを大幅に改善(精度を2倍に)
また、ゼロショットおよび少数ショットNLQの実行能力や、ロングテールオブジェクトカテゴリに関するクエリのパフォーマンス向上など、このアプローチのユニークな特性も示す。
論文 参考訳(メタデータ) (2023-01-02T16:40:15Z) - MEVID: Multi-view Extended Videos with Identities for Video Person
Re-Identification [17.72434646703505]
本稿では,大規模ビデオパーソン再識別(ReID)のためのMulti-view Extended Videos with Identities(MEVID)データセットを提案する。
我々は,約590フレームのトラックレット8,092枚から採取した598枚の衣装を身に着けている158人のユニークな人物の身元をラベル付けした。
MEVAビデオデータセットをベースとして、人口統計学的にアメリカ大陸にバランスのとれたデータを継承する。
論文 参考訳(メタデータ) (2022-11-09T03:07:31Z) - Multiface: A Dataset for Neural Face Rendering [108.44505415073579]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。
顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。
Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文 参考訳(メタデータ) (2022-07-22T17:55:39Z) - Video Person Re-identification using Attribute-enhanced Features [49.68392018281875]
本稿では属性支援型ビデオ人物Re-IDのためのAttribute Salience Assisted Network (ASA-Net) という新しいネットワークアーキテクチャを提案する。
対象を背景からよりよく分離するために,ハイレベルな属性ではなく,中程度の属性から視覚的注意を学習することを提案する。
論文 参考訳(メタデータ) (2021-08-16T07:41:27Z) - Robust Character Labeling in Movie Videos: Data Resources and
Self-supervised Feature Adaptation [39.373699774220775]
我々は、240のハリウッド映画と弱いラベルでキュレートされた169,000以上のフェイストラックのデータセットを提示する。
これらのトラックからハードサンプルをマイニングするために,埋め込み空間の近傍探索に基づくオフラインアルゴリズムを提案する。
全体として、多視点相関に基づく適応はより差別的で堅牢な顔埋め込みをもたらす。
論文 参考訳(メタデータ) (2020-08-25T22:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。