論文の概要: CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.06106v1
- Date: Thu, 8 Feb 2024 23:51:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 18:32:27.514077
- Title: CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models
- Title(参考訳): CLR-Face:Score-based Diffusion Modelを用いたブラインド顔復元のための条件付き潜時リファインメント
- Authors: Maitreya Suin, Rama Chellappa
- Abstract要約: 最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
- 参考スコア(独自算出の注目度): 57.9771859175664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent generative-prior-based methods have shown promising blind face
restoration performance. They usually project the degraded images to the latent
space and then decode high-quality faces either by single-stage latent
optimization or directly from the encoding. Generating fine-grained facial
details faithful to inputs remains a challenging problem. Most existing methods
produce either overly smooth outputs or alter the identity as they attempt to
balance between generation and reconstruction. This may be attributed to the
typical trade-off between quality and resolution in the latent space. If the
latent space is highly compressed, the decoded output is more robust to
degradations but shows worse fidelity. On the other hand, a more flexible
latent space can capture intricate facial details better, but is extremely
difficult to optimize for highly degraded faces using existing techniques. To
address these issues, we introduce a diffusion-based-prior inside a VQGAN
architecture that focuses on learning the distribution over uncorrupted latent
embeddings. With such knowledge, we iteratively recover the clean embedding
conditioning on the degraded counterpart. Furthermore, to ensure the reverse
diffusion trajectory does not deviate from the underlying identity, we train a
separate Identity Recovery Network and use its output to constrain the reverse
diffusion process. Specifically, using a learnable latent mask, we add
gradients from a face-recognition network to a subset of latent features that
correlates with the finer identity-related details in the pixel space, leaving
the other features untouched. Disentanglement between perception and fidelity
in the latent space allows us to achieve the best of both worlds. We perform
extensive evaluations on multiple real and synthetic datasets to validate the
superiority of our approach.
- Abstract(参考訳): 最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
彼らは通常、劣化した画像を潜伏空間に投影し、単段潜伏最適化またはエンコーディングから直接高品質な顔を復号する。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
ほとんどの既存メソッドは、生成と再構築のバランスをとろうとすると、過剰にスムーズな出力を生成するか、アイデンティティを変更する。
これは、潜在空間における品質と解像度の典型的なトレードオフに起因する可能性がある。
潜在空間が高度に圧縮された場合、復号された出力は劣化に対してより頑健であるが、忠実度は低下する。
一方で、より柔軟な潜在空間は複雑な顔の詳細をより正確に捉えることができるが、既存の技術を使って高度に劣化した顔に最適化することは極めて困難である。
これらの問題に対処するため、VQGANアーキテクチャの内部に拡散に基づくプライヤを導入し、未破裂の潜伏埋め込みにおける分布の学習に焦点をあてる。
このような知識を生かして,劣化したコンディショニングのクリーンな組込み条件を反復的に回収する。
さらに、逆拡散軌道が基礎となるアイデンティティから外れないようにするため、別々のid回復ネットワークを訓練し、その出力を用いて逆拡散プロセスを制約する。
具体的には、学習可能な潜伏マスクを用いて、顔認識ネットワークからの勾配を、ピクセル空間内のより細かいアイデンティティ関連の詳細と相関する潜伏特徴のサブセットに追加し、他の特徴に手を加えない。
潜在空間における知覚と忠実性の間の絡み合いは、両世界の最善を実現できる。
提案手法の優位性を検証するために,複数の実データと合成データについて広範な評価を行った。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - DiffMAC: Diffusion Manifold Hallucination Correction for High Generalization Blind Face Restoration [62.44659039265439]
視覚障害者の視力回復を支援するための拡散情報拡散フレームワークを提案する。
DiffMACは、多種多様な劣化シーンと異種ドメインにおいて、高度な顔の復元を実現する。
結果は,最先端手法よりもDiffMACの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-03-15T08:44:15Z) - SARGAN: Spatial Attention-based Residuals for Facial Expression
Manipulation [1.7056768055368383]
本稿では,3つの視点から制限に対処するSARGANという新しい手法を提案する。
我々は対称エンコーダ・デコーダネットワークを利用して顔の特徴に複数スケールで対応した。
提案手法は最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-03-30T08:15:18Z) - DifFace: Blind Face Restoration with Diffused Error Contraction [62.476329680424975]
DifFaceは、複雑な損失設計なしで、目に見えない複雑な劣化にもっと優しく対処できる。
現在の最先端の手法よりも優れており、特に深刻な劣化の場合には優れている。
論文 参考訳(メタデータ) (2022-12-13T11:52:33Z) - High-resolution Face Swapping via Latent Semantics Disentanglement [50.23624681222619]
本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能幻覚顔交換法を提案する。
我々は、ジェネレータの進行的な性質を利用して、潜在意味論を明示的に解き放つ。
我々は,2時間制約を潜時空間と画像空間に課すことにより,映像面スワップに拡張する。
論文 参考訳(メタデータ) (2022-03-30T00:33:08Z) - SuperFront: From Low-resolution to High-resolution Frontal Face
Synthesis [65.35922024067551]
本稿では,前頭前頭部を保存した高品質なアイデンティティを生成できるGANモデルを提案する。
具体的には,高分解能(HR)面を1対多のLR面から様々なポーズで合成するSuperFront-GANを提案する。
超高解像度のサイドビューモジュールをSF-GANに統合し、人事空間におけるアイデンティティ情報とサイドビューの詳細を保存します。
論文 参考訳(メタデータ) (2020-12-07T23:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。