論文の概要: FaceID-6M: A Large-Scale, Open-Source FaceID Customization Dataset
- arxiv url: http://arxiv.org/abs/2503.07091v3
- Date: Thu, 27 Mar 2025 11:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:50:02.503455
- Title: FaceID-6M: A Large-Scale, Open-Source FaceID Customization Dataset
- Title(参考訳): FaceID-6M: 大規模でオープンソースのFaceIDカスタマイズデータセット
- Authors: Shuhe Wang, Xiaoya Li, Jiwei Li, Guoyin Wang, Xiaofei Sun, Bob Zhu, Han Qiu, Mo Yu, Shengjie Shen, Tianwei Zhang, Eduard Hovy,
- Abstract要約: FaceID-6Mは、600万の高品質テキストイメージペアを含む、最初の大規模なオープンソースのFaceIDデータセットである。
FaceID-6Mデータセットの有効性を示す実験を行った。
FaceIDカスタマイズコミュニティにおける研究を支援し、前進させるために、コード、データセット、モデルを公開しています。
- 参考スコア(独自算出の注目度): 59.19513211899309
- License:
- Abstract: Due to the data-driven nature of current face identity (FaceID) customization methods, all state-of-the-art models rely on large-scale datasets containing millions of high-quality text-image pairs for training. However, none of these datasets are publicly available, which restricts transparency and hinders further advancements in the field. To address this issue, in this paper, we collect and release FaceID-6M, the first large-scale, open-source FaceID dataset containing 6 million high-quality text-image pairs. Filtered from LAION-5B \cite{schuhmann2022laion}, FaceID-6M undergoes a rigorous image and text filtering steps to ensure dataset quality, including resolution filtering to maintain high-quality images and faces, face filtering to remove images that lack human faces, and keyword-based strategy to retain descriptions containing human-related terms (e.g., nationality, professions and names). Through these cleaning processes, FaceID-6M provides a high-quality dataset optimized for training powerful FaceID customization models, facilitating advancements in the field by offering an open resource for research and development. We conduct extensive experiments to show the effectiveness of our FaceID-6M, demonstrating that models trained on our FaceID-6M dataset achieve performance that is comparable to, and slightly better than currently available industrial models. Additionally, to support and advance research in the FaceID customization community, we make our code, datasets, and models fully publicly available. Our codes, models, and datasets are available at: https://github.com/ShuheSH/FaceID-6M.
- Abstract(参考訳): 現在の顔認証(FaceID)カスタマイズ方式のデータ駆動性のため、最先端モデルはトレーニングに数百万の高品質のテキストイメージペアを含む大規模データセットに依存している。
しかしながら、これらのデータセットはいずれも公開されておらず、透明性を制限し、この分野のさらなる進歩を妨げる。
この問題に対処するために,600万の高品質テキストイメージ対を含む,最初の大規模オープンソースFaceIDデータセットであるFaceID-6Mを収集,リリースする。
LAION-5B \cite{schuhmann2022laion} からフィルタリングされた FaceID-6M は、高品質な画像と顔を維持するための解像度フィルタリング、人間の顔が欠けている画像を削除する顔フィルタリング、人間関連の用語(例えば、国籍、職業、名前)を含む記述を保持するキーワードベースの戦略を含む、厳格な画像とテキストフィルタリングのステップを実行する。
これらのクリーニングプロセスを通じて、FaceID-6Mは、強力なFaceIDカスタマイズモデルのトレーニングに最適化された高品質なデータセットを提供する。
私たちは、FaceID-6Mの有効性を示す広範な実験を行い、FaceID-6Mデータセットでトレーニングされたモデルが、現在利用可能な産業モデルに匹敵する、わずかに優れたパフォーマンスを達成することを実証した。
さらに、FaceIDカスタマイズコミュニティでのリサーチを支援し、前進させるために、コード、データセット、モデルを公開しています。
私たちのコード、モデル、データセットは、https://github.com/ShuheSH/FaceID-6M.comで利用可能です。
関連論文リスト
- Turn That Frown Upside Down: FaceID Customization via Cross-Training Data [49.51940625552275]
CrossFaceIDは、FaceIDカスタマイズモデルの顔修正機能を改善するために設計された、最初の大規模で高品質で公開可能なデータセットである。
約2000人から4万対のテキスト画像で構成され、それぞれが顔の特徴を示す約20の画像で表現されている。
トレーニング段階では、人物の特定の顔が入力として使用され、FaceIDカスタマイズモデルは、同一人物の別の画像を生成することを余儀なくされるが、顔の特徴が変化している。
実験により、CrossFaceIDデータセットに微調整されたモデルが、FaceIDの忠実性を保ちながら、その性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-01-26T05:27:38Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。
既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-18T10:32:51Z) - EFHQ: Multi-purpose ExtremePose-Face-HQ dataset [1.8194090162317431]
この研究は、Extreme Pose Face High-Qualityデータセット(EFHQ)と呼ばれる新しいデータセットを導入し、極端なポーズで顔の最大450kの高品質な画像を含む。
このような膨大なデータセットを生成するために、我々は、新しく精巧なデータセット処理パイプラインを使用して、2つの公開データセットをキュレートする。
我々のデータセットは、顔合成と2D/3D対応のGAN、拡散ベースの顔生成、顔の再現など、さまざまな顔関連タスクに関する既存のデータセットを補完することができる。
論文 参考訳(メタデータ) (2023-12-28T18:40:31Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z) - How to Boost Face Recognition with StyleGAN? [13.067766076889995]
最先端の顔認識システムは大量のラベル付きトレーニングデータを必要とする。
業界における自己監督的革命は、関連する技術が顔認識に適応する研究を動機付けている。
StyleGANのための微調整pSpエンコーダに基づく簡単なアプローチにより、最先端の顔認識を改善することができることを示す。
論文 参考訳(メタデータ) (2022-10-18T18:41:56Z) - Multiface: A Dataset for Neural Face Rendering [108.44505415073579]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。
顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。
Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文 参考訳(メタデータ) (2022-07-22T17:55:39Z) - GMFIM: A Generative Mask-guided Facial Image Manipulation Model for
Privacy Preservation [0.7734726150561088]
入力顔画像に知覚不可能な編集を適用するために,GANをベースとしたマスク誘導顔画像マニピュレーションモデルを提案する。
我々のモデルは、最先端の手法と比較して、自動顔認識システムに対してより良い性能を実現することができる。
論文 参考訳(メタデータ) (2022-01-10T14:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。