論文の概要: GPTFace: Generative Pre-training of Facial-Linguistic Transformer by Span Masking and Weakly Correlated Text-image Data
- arxiv url: http://arxiv.org/abs/2510.18345v1
- Date: Tue, 21 Oct 2025 06:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.039031
- Title: GPTFace: Generative Pre-training of Facial-Linguistic Transformer by Span Masking and Weakly Correlated Text-image Data
- Title(参考訳): GPTFace:スパンマスキングと弱相関テキスト画像データによる顔言語変換器の生成前訓練
- Authors: Yudong Li, Hao Li, Xianxu Hou, Linlin Shen,
- Abstract要約: 本稿では,大規模なWeb構築データを活用した顔知識学習のための生成事前学習モデルを提案する。
また, 顔属性編集, 表情操作, マスク除去, 写真インペイントなど, 幅広い顔編集作業にも適用可能である。
- 参考スコア(独自算出の注目度): 53.92883885331805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compared to the prosperity of pre-training models in natural image understanding, the research on large-scale pre-training models for facial knowledge learning is still limited. Current approaches mainly rely on manually assembled and annotated face datasets for training, but labeling such datasets is labor-intensive and the trained models have limited scalability beyond the training data. To address these limitations, we present a generative pre-training model for facial knowledge learning that leverages large-scale web-built data for training. We use texts and images containing human faces crawled from the internet and conduct pre-training on self-supervised tasks, including masked image/language modeling (MILM) and image-text matching (ITM). During the generation stage, we further utilize the image-text matching loss to pull the generation distribution towards the control signal for controllable image/text generation. Experimental results demonstrate that our model achieves comparable performance to state-of-the-art pre-training models for various facial downstream tasks, such as attribution classification and expression recognition. Furthermore, our approach is also applicable to a wide range of face editing tasks, including face attribute editing, expression manipulation, mask removal, and photo inpainting.
- Abstract(参考訳): 自然画像理解における事前学習モデルの繁栄と比較して、顔知識学習のための大規模事前学習モデルの研究は依然として限られている。
現在のアプローチでは、主にトレーニングのために手動で組み立ててアノテートされた顔データセットに頼っているが、そのようなデータセットのラベル付けは労働集約的であり、トレーニングされたモデルにはトレーニングデータ以上のスケーラビリティが制限されている。
これらの制約に対処するために,大規模なWeb構築データを活用した顔知識学習のための生成事前学習モデルを提案する。
我々は、インターネットからクロールされた人間の顔を含むテキストや画像を使用し、マスク付き画像/言語モデリング(MILM)や画像テキストマッチング(ITM)など、自己教師付きタスクを事前訓練する。
生成段階では、さらに画像テキストマッチング損失を利用して、生成分布を制御可能な画像/テキスト生成のための制御信号にプルする。
実験により,本モデルは,属性分類や表現認識など,さまざまな下流タスクに対する最先端の事前学習モデルに匹敵する性能を示した。
さらに, 顔属性編集, 表情操作, マスク除去, 写真インペイントなど, 幅広い顔編集作業にも適用可能である。
関連論文リスト
- Evolved Hierarchical Masking for Self-Supervised Learning [49.77271430882176]
既存のマスケ画像モデリング手法では、固定マスクパターンを適用して自己指導型トレーニングを指導する。
本稿では,自己教師型学習における一般的な視覚的手がかりモデリングを追求する階層型マスキング手法を提案する。
論文 参考訳(メタデータ) (2025-04-12T09:40:14Z) - FaceChain-FACT: Face Adapter with Decoupled Training for Identity-preserved Personalization [24.600720169589334]
アダプタベースの手法は、顔データに対するテキスト・ツー・イメージのトレーニングによって、肖像画をカスタマイズし、生成する能力を得る。
ベースモデルと比較して、テスト後の能力、制御性、生成した顔の多様性が著しく低下することが多い。
我々は、モデルアーキテクチャとトレーニング戦略の両方に焦点を当てた、非結合トレーニング(FACT)フレームワークによるFace Adapterを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:25:24Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Limitations of Face Image Generation [12.11955119100926]
顔生成における生成モデルの有効性と欠点について検討した。
テキストプロンプトへの忠実度、人口格差、分布変化など、顔画像生成のいくつかの制限を識別する。
本稿では、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T19:33:26Z) - Toward High Quality Facial Representation Learning [58.873356953627614]
我々はMask Contrastive Face (MCF)と呼ばれる自己教師型事前学習フレームワークを提案する。
トレーニング済みの視覚バックボーンの特徴マップを監視項目として使用し、マスク画像モデリングに部分的にトレーニング済みのデコーダを使用する。
このモデルはAFLW-19顔アライメントの0.932 NME_diag$とLaPa顔解析の93.96 F1スコアを達成する。
論文 参考訳(メタデータ) (2023-09-07T09:11:49Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - General Facial Representation Learning in a Visual-Linguistic Manner [45.92447707178299]
本稿では,一般の顔表現学習を視覚言語的に行うためのフレームワークFaRLを紹介する。
従来の事前学習モデルと比較して, FaRL は転送性能がよいことを示す。
本モデルは,顔解析や顔のアライメントといった顔解析タスクにおける最先端の手法を超越したモデルである。
論文 参考訳(メタデータ) (2021-12-06T15:22:05Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。