論文の概要: 15M Multimodal Facial Image-Text Dataset
- arxiv url: http://arxiv.org/abs/2407.08515v2
- Date: Fri, 12 Jul 2024 01:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 03:38:34.273422
- Title: 15M Multimodal Facial Image-Text Dataset
- Title(参考訳): マルチモーダル顔画像テキストデータセット1500万
- Authors: Dawei Dai, YuTang Li, YingGe Liu, Mingming Jia, Zhang YuanHui, Guoyin Wang,
- Abstract要約: FaceCaption-15Mは、1500万対以上の顔画像と、それに対応する顔の特徴の自然言語記述で構成されている。
画像品質, テキストの自然性, テキストの複雑さ, テキスト画像の関連性を総合的に分析し, FaceCaption-15Mの優位性を実証した。
- 参考スコア(独自算出の注目度): 5.552727861734425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, image-text-driven multi-modal deep learning models have demonstrated their outstanding potential in many fields. In practice, tasks centered around facial images have broad application prospects. This paper presents \textbf{FaceCaption-15M}, a large-scale, diverse, and high-quality dataset of facial images accompanied by their natural language descriptions (facial image-to-text). This dataset aims to facilitate a study on face-centered tasks. FaceCaption-15M comprises over 15 million pairs of facial images and their corresponding natural language descriptions of facial features, making it the largest facial image-caption dataset to date. We conducted a comprehensive analysis of image quality, text naturalness, text complexity, and text-image relevance to demonstrate the superiority of FaceCaption-15M. To validate the effectiveness of FaceCaption-15M, we first trained a facial language-image pre-training model (FLIP, similar to CLIP) to align facial image with its corresponding captions in feature space. Subsequently, using both image and text encoders and fine-tuning only the linear layer, our FLIP-based models achieved state-of-the-art results on two challenging face-centered tasks. The purpose is to promote research in the field of face-related tasks through the availability of the proposed FaceCaption-15M dataset. All data, codes, and models are publicly available. https://huggingface.co/datasets/OpenFace-CQUPT/FaceCaption-15M
- Abstract(参考訳): 現在、画像テキスト駆動型マルチモーダルディープラーニングモデルは、多くの分野でその顕著な可能性を実証している。
実際には、顔画像を中心としたタスクは幅広い応用可能性を持っている。
本稿では,顔画像の大規模・多様・高品質なデータセットである「textbf{FaceCaption-15M}」について,その自然言語記述(顔画像からテキストへ)を伴って述べる。
このデータセットは、顔中心タスクの研究を容易にすることを目的としている。
FaceCaption-15Mは、1500万対以上の顔画像と、それに対応する顔の特徴の自然言語記述で構成されており、これまでで最大の顔画像キャプチャデータセットとなっている。
画像品質, テキストの自然性, テキストの複雑さ, テキスト画像の関連性を総合的に分析し, FaceCaption-15Mの優位性を実証した。
FaceCaption-15Mの有効性を検証するために,顔画像と対応する字幕を特徴空間で整列させるために,まず顔画像前訓練モデル(FLIP,CLIPと類似)を訓練した。
その後、画像エンコーダとテキストエンコーダを併用し、線形層のみを微調整することで、FLIPベースのモデルでは、2つの課題のある顔中心タスクに対して最先端の結果が得られた。
目的は、FaceCaption-15Mデータセットの公開を通じて、顔関連タスクの研究を促進することである。
すべてのデータ、コード、モデルは公開されています。
https://huggingface.co/datasets/OpenFace-CQUPT/FaceCaption-15M
関連論文リスト
- FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。
我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文 参考訳(メタデータ) (2024-03-25T17:59:57Z) - Text-Guided Face Recognition using Multi-Granularity Cross-Modal
Contrastive Learning [0.0]
テキスト誘導顔認識(TGFR)を導入し、自然言語記述の形で顔属性を統合することの影響を解析する。
TGFRは、特に低画質の画像において、既存の顔認識モデルよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-14T22:04:22Z) - Toward High Quality Facial Representation Learning [58.873356953627614]
我々はMask Contrastive Face (MCF)と呼ばれる自己教師型事前学習フレームワークを提案する。
トレーニング済みの視覚バックボーンの特徴マップを監視項目として使用し、マスク画像モデリングに部分的にトレーニング済みのデコーダを使用する。
このモデルはAFLW-19顔アライメントの0.932 NME_diag$とLaPa顔解析の93.96 F1スコアを達成する。
論文 参考訳(メタデータ) (2023-09-07T09:11:49Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - Multiface: A Dataset for Neural Face Rendering [108.44505415073579]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。
顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。
Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文 参考訳(メタデータ) (2022-07-22T17:55:39Z) - AnyFace: Free-style Text-to-Face Synthesis and Manipulation [41.61972206254537]
本稿では,AnyFaceという無料のテキスト・ツー・フェイス方式を提案する。
AnyFaceは、メタバース、ソーシャルメディア、化粧品、鑑識など、より広範なオープンワールドアプリケーションを可能にする。
論文 参考訳(メタデータ) (2022-03-29T08:27:38Z) - General Facial Representation Learning in a Visual-Linguistic Manner [45.92447707178299]
本稿では,一般の顔表現学習を視覚言語的に行うためのフレームワークFaRLを紹介する。
従来の事前学習モデルと比較して, FaRL は転送性能がよいことを示す。
本モデルは,顔解析や顔のアライメントといった顔解析タスクにおける最先端の手法を超越したモデルである。
論文 参考訳(メタデータ) (2021-12-06T15:22:05Z) - Faces \`a la Carte: Text-to-Face Generation via Attribute
Disentanglement [9.10088750358281]
Text-to-Face (TTF) は多様なコンピュータビジョンアプリケーションにおいて大きな可能性を秘めている課題である。
本研究では,高解像度(1024×1024)で画像を生成するテキスト・ツー・フェイスモデルを提案する。
実験結果から,TTF-HDは最先端の性能を有する高品質な顔を生成することが示された。
論文 参考訳(メタデータ) (2020-06-13T10:24:31Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。