論文の概要: OSDFace: One-Step Diffusion Model for Face Restoration
- arxiv url: http://arxiv.org/abs/2411.17163v1
- Date: Tue, 26 Nov 2024 07:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:10.524127
- Title: OSDFace: One-Step Diffusion Model for Face Restoration
- Title(参考訳): OSDFace:顔修復のためのワンステップ拡散モデル
- Authors: Jingkai Wang, Jue Gong, Lin Zhang, Zheng Chen, Xing Liu, Hong Gu, Yutong Liu, Yulun Zhang, Xiaokang Yang,
- Abstract要約: 拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
- 参考スコア(独自算出の注目度): 72.5045389847792
- License:
- Abstract: Diffusion models have demonstrated impressive performance in face restoration. Yet, their multi-step inference process remains computationally intensive, limiting their applicability in real-world scenarios. Moreover, existing methods often struggle to generate face images that are harmonious, realistic, and consistent with the subject's identity. In this work, we propose OSDFace, a novel one-step diffusion model for face restoration. Specifically, we propose a visual representation embedder (VRE) to better capture prior information and understand the input face. In VRE, low-quality faces are processed by a visual tokenizer and subsequently embedded with a vector-quantized dictionary to generate visual prompts. Additionally, we incorporate a facial identity loss derived from face recognition to further ensure identity consistency. We further employ a generative adversarial network (GAN) as a guidance model to encourage distribution alignment between the restored face and the ground truth. Experimental results demonstrate that OSDFace surpasses current state-of-the-art (SOTA) methods in both visual quality and quantitative metrics, generating high-fidelity, natural face images with high identity consistency. The code and model will be released at https://github.com/jkwang28/OSDFace.
- Abstract(参考訳): 拡散モデルは、顔の修復において顕著な性能を示した。
しかし、それらの多段階推論プロセスは計算集約的であり、現実のシナリオにおける適用性を制限する。
さらに、既存の手法は、被験者のアイデンティティと調和し、現実的で整合した顔画像を生成するのに苦労することが多い。
本研究では,顔復元のための新しい一段階拡散モデルOSDFaceを提案する。
具体的には、先行情報をよりよく捉え、入力面を理解するための視覚表現埋め込み器(VRE)を提案する。
VREでは、低品質の顔は視覚トークン化器で処理され、その後ベクトル量子化された辞書に埋め込まれて視覚的なプロンプトを生成する。
さらに,顔認識による顔の同一性喪失を取り入れ,アイデンティティの整合性をさらに確保する。
さらに,GAN(Generative Adversarial Network)を誘導モデルとして用いて,復元された顔と地上の真実との分布アライメントを促進する。
実験結果から、OSDFaceは、現在の最先端(SOTA)手法を視覚的品質と定量的メトリクスの両方で超越し、高忠実で自然な顔画像を生成することを示した。
コードとモデルはhttps://github.com/jkwang28/OSDFaceでリリースされる。
関連論文リスト
- Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - G2Face: High-Fidelity Reversible Face Anonymization via Generative and Geometric Priors [71.69161292330504]
可逆顔匿名化(Reversible face anonymization)は、顔画像の繊細なアイデンティティ情報を、合成された代替品に置き換えようとしている。
本稿では,Gtextsuperscript2Faceを提案する。
提案手法は,高データの有効性を保ちながら,顔の匿名化と回復において既存の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2024-08-18T12:36:47Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - FitDiff: Robust monocular 3D facial shape and reflectance estimation using Diffusion Models [79.65289816077629]
拡散型3次元顔アバター生成モデルFitDiffを提案する。
本モデルでは,「近距離」2次元顔画像から抽出したアイデンティティ埋め込みを利用して,再現性のある顔アバターを高精度に生成する。
FitDiffは、顔認識の埋め込みを前提とした最初の3D LDMであり、一般的なレンダリングエンジンで使用可能な、ライティング可能な人間のアバターを再構築する。
論文 参考訳(メタデータ) (2023-12-07T17:35:49Z) - DiffFace: Diffusion-based Face Swapping with Facial Guidance [24.50570533781642]
DiffFaceと呼ばれる拡散型顔交換フレームワークを初めて提案する。
トレーニングID条件DDPM、顔誘導によるサンプリング、および目標保存ブレンディングで構成されている。
DiffFaceは、トレーニングの安定性、高い忠実度、サンプルの多様性、制御性など、よりよいメリットを実現している。
論文 参考訳(メタデータ) (2022-12-27T02:51:46Z) - Vec2Face-v2: Unveil Human Faces from their Blackbox Features via
Attention-based Network in Face Recognition [36.23997331928846]
蒸留フレームワーク(DAB-GAN)における意図に基づく客観的生成適応ネットワーク(Bijective Generative Adversarial Networks)と呼ばれる新しい手法を提案する。
DAB-GAN法は、新しく定義されたBijective Metrics Learningアプローチによる、新しい注意に基づく生成構造を含む。
我々は,難解な顔認識データベースについて評価を行った。
論文 参考訳(メタデータ) (2022-09-11T19:14:21Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。