論文の概要: A Generalist FaceX via Learning Unified Facial Representation
- arxiv url: http://arxiv.org/abs/2401.00551v1
- Date: Sun, 31 Dec 2023 17:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:59:38.955081
- Title: A Generalist FaceX via Learning Unified Facial Representation
- Title(参考訳): 顔の統一表現を学習するジェネラリストFaceX
- Authors: Yue Han, Jiangning Zhang, Junwei Zhu, Xiangtai Li, Yanhao Ge, Wei Li,
Chengjie Wang, Yong Liu, Xiaoming Liu, Ying Tai
- Abstract要約: FaceXは、多様な顔タスクを同時に処理できる新しい顔ジェネラリストモデルである。
汎用的なFaceXは、一般的な顔編集タスクの精巧なタスク特化モデルと比較して、競争性能が向上する。
- 参考スコア(独自算出の注目度): 77.74407008931486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents FaceX framework, a novel facial generalist model capable
of handling diverse facial tasks simultaneously. To achieve this goal, we
initially formulate a unified facial representation for a broad spectrum of
facial editing tasks, which macroscopically decomposes a face into fundamental
identity, intra-personal variation, and environmental factors. Based on this,
we introduce Facial Omni-Representation Decomposing (FORD) for seamless
manipulation of various facial components, microscopically decomposing the core
aspects of most facial editing tasks. Furthermore, by leveraging the prior of a
pretrained StableDiffusion (SD) to enhance generation quality and accelerate
training, we design Facial Omni-Representation Steering (FORS) to first
assemble unified facial representations and then effectively steer the SD-aware
generation process by the efficient Facial Representation Controller (FRC).
%Without any additional features, Our versatile FaceX achieves competitive
performance compared to elaborate task-specific models on popular facial
editing tasks. Full codes and models will be available at
https://github.com/diffusion-facex/FaceX.
- Abstract(参考訳): この研究は、多様な顔タスクを同時に処理できる新しい顔ジェネラリストモデルであるFaceXフレームワークを提示する。
この目的を達成するために,まず,多彩な顔編集タスクに対して統一的な顔表現を定式化し,その表情を基本同一性,個人内変異,環境要因に大局的に分解する。
そこで本稿では,顔編集作業のコア側面を顕微鏡的に分解し,様々な顔成分をシームレスに操作するための顔表情表現分解(FORD)を提案する。
さらに、事前訓練された安定拡散(SD)の先行を利用して、生成品質を高め、トレーニングを加速することにより、顔の統一表現を最初に統合し、効率の良い顔表現制御(FRC)により、SD認識生成プロセスを効果的に操る顔表現ステアリング(FORS)を設計する。
% 追加機能なしでは,顔編集タスクの精巧なタスク特化モデルと比較して,多機能なFaceXは競争力がある。
完全なコードとモデルはhttps://github.com/diffusion-facex/facexで入手できる。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - FaceXFormer: A Unified Transformer for Facial Analysis [59.94066615853198]
FaceXformerは、さまざまな顔分析タスクのためのエンドツーエンドの統一トランスフォーマーモデルである。
本モデルでは,8つのタスクにまたがる頑健さと一般化性を実証し,画像の「夢中」を効果的に処理する。
論文 参考訳(メタデータ) (2024-03-19T17:58:04Z) - Self-Supervised Facial Representation Learning with Facial Region
Awareness [13.06996608324306]
自己教師付き事前学習は、様々な視覚的タスクに役立つ伝達可能な表現を学習するのに有効であることが証明されている。
この目標に向けての最近の取り組みは、各顔画像を全体として扱うことに限定されている。
本研究では,一貫したグローバルおよびローカルな顔表現を学習するための,自己教師型顔表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-04T15:48:56Z) - End-to-end Face-swapping via Adaptive Latent Representation Learning [12.364688530047786]
本稿では,高精細・高精細・高精細・高精細・高精細な顔交換のための新しいエンドツーエンド統合フレームワークを提案する。
顔の知覚とブレンドをエンドツーエンドのトレーニングとテストのプロセスに統合することで、野生の顔に高いリアルな顔スワッピングを実現することができる。
論文 参考訳(メタデータ) (2023-03-07T19:16:20Z) - DiffFace: Diffusion-based Face Swapping with Facial Guidance [24.50570533781642]
DiffFaceと呼ばれる拡散型顔交換フレームワークを初めて提案する。
トレーニングID条件DDPM、顔誘導によるサンプリング、および目標保存ブレンディングで構成されている。
DiffFaceは、トレーニングの安定性、高い忠実度、サンプルの多様性、制御性など、よりよいメリットを実現している。
論文 参考訳(メタデータ) (2022-12-27T02:51:46Z) - FaceFormer: Scale-aware Blind Face Restoration with Transformers [18.514630131883536]
そこで我々は,顔の特徴回復をスケール・アウェア・トランスフォーメーションとして定式化する,FaceFormerという新しい顔修復フレームワークを提案する。
提案手法は, 合成データセットを用いて, 現在の最先端画像よりも, 自然な低品質画像を一般化する。
論文 参考訳(メタデータ) (2022-07-20T10:08:34Z) - Pro-UIGAN: Progressive Face Hallucination from Occluded Thumbnails [53.080403912727604]
Inpainting Generative Adversarial Network, Pro-UIGANを提案する。
顔の形状を利用して、隠された小さな顔の補充とアップサンプリング(8*)を行う。
Pro-UIGANは、HR面を視覚的に満足させ、下流タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-08-02T02:29:24Z) - DotFAN: A Domain-transferred Face Augmentation Network for Pose and
Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。
DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。
実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文 参考訳(メタデータ) (2020-02-23T08:16:34Z) - Face Hallucination with Finishing Touches [65.14864257585835]
本稿では,超解像とフロンティア化を同時に行うVivid Face Hallucination Generative Adversarial Network (VividGAN)を提案する。
VividGANは粗いレベルと細かなレベルのFace Hallucination Networks (FHnet)と、粗いDとファインDの2つの識別器で構成されている。
実験により、VvidGANは、フォトリアリスティックな正面HR面を達成し、下流タスクにおいて優れた性能を達成できることが示された。
論文 参考訳(メタデータ) (2020-02-09T07:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。