Fugu-MT 論文翻訳(概要): 15M Multimodal Facial Image-Text Dataset

論文の概要: 15M Multimodal Facial Image-Text Dataset

arxiv url: http://arxiv.org/abs/2407.08515v2
Date: Fri, 12 Jul 2024 01:19:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 03:38:34.273422
Title: 15M Multimodal Facial Image-Text Dataset
Title（参考訳）: マルチモーダル顔画像テキストデータセット1500万
Authors: Dawei Dai, YuTang Li, YingGe Liu, Mingming Jia, Zhang YuanHui, Guoyin Wang,
Abstract要約: FaceCaption-15Mは、1500万対以上の顔画像と、それに対応する顔の特徴の自然言語記述で構成されている。画像品質, テキストの自然性, テキストの複雑さ, テキスト画像の関連性を総合的に分析し, FaceCaption-15Mの優位性を実証した。
参考スコア（独自算出の注目度）: 5.552727861734425
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Currently, image-text-driven multi-modal deep learning models have demonstrated their outstanding potential in many fields. In practice, tasks centered around facial images have broad application prospects. This paper presents \textbf{FaceCaption-15M}, a large-scale, diverse, and high-quality dataset of facial images accompanied by their natural language descriptions (facial image-to-text). This dataset aims to facilitate a study on face-centered tasks. FaceCaption-15M comprises over 15 million pairs of facial images and their corresponding natural language descriptions of facial features, making it the largest facial image-caption dataset to date. We conducted a comprehensive analysis of image quality, text naturalness, text complexity, and text-image relevance to demonstrate the superiority of FaceCaption-15M. To validate the effectiveness of FaceCaption-15M, we first trained a facial language-image pre-training model (FLIP, similar to CLIP) to align facial image with its corresponding captions in feature space. Subsequently, using both image and text encoders and fine-tuning only the linear layer, our FLIP-based models achieved state-of-the-art results on two challenging face-centered tasks. The purpose is to promote research in the field of face-related tasks through the availability of the proposed FaceCaption-15M dataset. All data, codes, and models are publicly available. https://huggingface.co/datasets/OpenFace-CQUPT/FaceCaption-15M
Abstract（参考訳）: 現在、画像テキスト駆動型マルチモーダルディープラーニングモデルは、多くの分野でその顕著な可能性を実証している。実際には、顔画像を中心としたタスクは幅広い応用可能性を持っている。本稿では,顔画像の大規模・多様・高品質なデータセットである「textbf{FaceCaption-15M}」について,その自然言語記述(顔画像からテキストへ)を伴って述べる。このデータセットは、顔中心タスクの研究を容易にすることを目的としている。 FaceCaption-15Mは、1500万対以上の顔画像と、それに対応する顔の特徴の自然言語記述で構成されており、これまでで最大の顔画像キャプチャデータセットとなっている。画像品質, テキストの自然性, テキストの複雑さ, テキスト画像の関連性を総合的に分析し, FaceCaption-15Mの優位性を実証した。 FaceCaption-15Mの有効性を検証するために,顔画像と対応する字幕を特徴空間で整列させるために,まず顔画像前訓練モデル(FLIP,CLIPと類似)を訓練した。その後、画像エンコーダとテキストエンコーダを併用し、線形層のみを微調整することで、FLIPベースのモデルでは、2つの課題のある顔中心タスクに対して最先端の結果が得られた。目的は、FaceCaption-15Mデータセットの公開を通じて、顔関連タスクの研究を促進することである。すべてのデータ、コード、モデルは公開されています。 https://huggingface.co/datasets/OpenFace-CQUPT/FaceCaption-15M

関連論文リスト

FaceLLM: A Multimodal Large Language Model for Face Understanding [22.8742248559748]
顔画像理解に特化して訓練された多モーダル大言語モデルFaceLLMを紹介する。トレーニングデータを構築するために,ChatGPTと属性認識プロンプトを併用して高品質な質問応答ペアを生成する,弱教師付きパイプラインを提案する。実験により,FaceLLMは様々な顔中心タスクにおけるMLLMの性能を向上し,最先端のパフォーマンスを実現することが示された。
論文参考訳（メタデータ） (2025-07-14T14:04:14Z)
FaceInsight: A Multimodal Large Language Model for Face Perception [69.06084304620026]
本研究では,顔の詳細な情報を提供する多目的顔認識大言語モデル (MLLM) を提案する。本手法では, 顔情報間の不確かさと決定論的関係の両方をモデル化するために, 顔知識の視覚的・テキスト的アライメントを導入する。 3つの顔認識タスクに対する総合的な実験と分析により、FaceInsightはMLLMと比較した9つの性能を一貫して上回っていることが示された。
論文参考訳（メタデータ） (2025-04-22T06:31:57Z)
Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning [5.178801281905521]
顔認識や属性認識を含む,顔中心のテキスト内学習のための大規模言語モデルFace-LLaVAを提案する。まず,顔処理のためのMLLMを指導する顔中心データベースFaceInstruct-1Mを開発した。そこで我々は,Face-Region Guided Cross-Attentionを応用した新しいビジュアルエンコーダを開発した。
論文参考訳（メタデータ） (2025-04-09T18:26:07Z)
Face-MakeUp: Multimodal Facial Prompts for Text-to-Image Generation [0.0]
LAION-Faceに基づく400万の高品質な顔画像テキストペア(FaceCaptionHQ-4M)のデータセットを構築した。本研究では, 顔画像の特徴を抽出・学習し, その特徴を拡散モデルに統合し, 拡散モデルにおける顔の識別特性の保存性を高める。
論文参考訳（メタデータ） (2025-01-05T12:46:31Z)
OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-26T07:07:48Z)
Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文参考訳（メタデータ） (2024-10-28T04:19:32Z)
Text-Guided Face Recognition using Multi-Granularity Cross-Modal Contrastive Learning [0.0]
テキスト誘導顔認識(TGFR)を導入し、自然言語記述の形で顔属性を統合することの影響を解析する。 TGFRは、特に低画質の画像において、既存の顔認識モデルよりも顕著に改善されている。
論文参考訳（メタデータ） (2023-12-14T22:04:22Z)
Toward High Quality Facial Representation Learning [58.873356953627614]
我々はMask Contrastive Face (MCF)と呼ばれる自己教師型事前学習フレームワークを提案する。トレーニング済みの視覚バックボーンの特徴マップを監視項目として使用し、マスク画像モデリングに部分的にトレーニング済みのデコーダを使用する。このモデルはAFLW-19顔アライメントの0.932 NME_diag$とLaPa顔解析の93.96 F1スコアを達成する。
論文参考訳（メタデータ） (2023-09-07T09:11:49Z)
DreamIdentity: Improved Editability for Efficient Face-identity Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文参考訳（メタデータ） (2023-07-01T11:01:17Z)
Multiface: A Dataset for Neural Face Rendering [108.44505415073579]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。 Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文参考訳（メタデータ） (2022-07-22T17:55:39Z)
AnyFace: Free-style Text-to-Face Synthesis and Manipulation [41.61972206254537]
本稿では,AnyFaceという無料のテキスト・ツー・フェイス方式を提案する。 AnyFaceは、メタバース、ソーシャルメディア、化粧品、鑑識など、より広範なオープンワールドアプリケーションを可能にする。
論文参考訳（メタデータ） (2022-03-29T08:27:38Z)
General Facial Representation Learning in a Visual-Linguistic Manner [45.92447707178299]
本稿では,一般の顔表現学習を視覚言語的に行うためのフレームワークFaRLを紹介する。従来の事前学習モデルと比較して, FaRL は転送性能がよいことを示す。本モデルは,顔解析や顔のアライメントといった顔解析タスクにおける最先端の手法を超越したモデルである。
論文参考訳（メタデータ） (2021-12-06T15:22:05Z)
Faces \`a la Carte: Text-to-Face Generation via Attribute Disentanglement [9.10088750358281]
Text-to-Face (TTF) は多様なコンピュータビジョンアプリケーションにおいて大きな可能性を秘めている課題である。本研究では,高解像度(1024×1024)で画像を生成するテキスト・ツー・フェイスモデルを提案する。実験結果から,TTF-HDは最先端の性能を有する高品質な顔を生成することが示された。
論文参考訳（メタデータ） (2020-06-13T10:24:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。