論文の概要: DiffBFR: Bootstrapping Diffusion Model Towards Blind Face Restoration
- arxiv url: http://arxiv.org/abs/2305.04517v1
- Date: Mon, 8 May 2023 07:22:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 15:17:06.937282
- Title: DiffBFR: Bootstrapping Diffusion Model Towards Blind Face Restoration
- Title(参考訳): DiffBFR: ブラインド顔復元に向けたブートストラップ拡散モデル
- Authors: Xinmin Qiu, Congying Han, ZiCheng Zhang, Bonan Li, Tiande Guo,
Xuecheng Nie
- Abstract要約: ブラインド顔修復(BFR)のための拡散確率モデル(DPM)を導入するためのDiffBFRを提案する。
DPMはトレーニングの崩壊を回避し、長い尾の分布を生成する。
低画質の画像から識別情報を復元し、実際の顔の分布に応じてテクスチャの詳細を強化する。
- 参考スコア(独自算出の注目度): 8.253458555695767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Blind face restoration (BFR) is important while challenging. Prior works
prefer to exploit GAN-based frameworks to tackle this task due to the balance
of quality and efficiency. However, these methods suffer from poor stability
and adaptability to long-tail distribution, failing to simultaneously retain
source identity and restore detail. We propose DiffBFR to introduce Diffusion
Probabilistic Model (DPM) for BFR to tackle the above problem, given its
superiority over GAN in aspects of avoiding training collapse and generating
long-tail distribution. DiffBFR utilizes a two-step design, that first restores
identity information from low-quality images and then enhances texture details
according to the distribution of real faces. This design is implemented with
two key components: 1) Identity Restoration Module (IRM) for preserving the
face details in results. Instead of denoising from pure Gaussian random
distribution with LQ images as the condition during the reverse process, we
propose a novel truncated sampling method which starts from LQ images with part
noise added. We theoretically prove that this change shrinks the evidence lower
bound of DPM and then restores more original details. With theoretical proof,
two cascade conditional DPMs with different input sizes are introduced to
strengthen this sampling effect and reduce training difficulty in the
high-resolution image generated directly. 2) Texture Enhancement Module (TEM)
for polishing the texture of the image. Here an unconditional DPM, a LQ-free
model, is introduced to further force the restorations to appear realistic. We
theoretically proved that this unconditional DPM trained on pure HQ images
contributes to justifying the correct distribution of inference images output
from IRM in pixel-level space. Truncated sampling with fractional time step is
utilized to polish pixel-level textures while preserving identity information.
- Abstract(参考訳): ブラインドフェイス修復(bfr)は挑戦的に重要である。
以前の作業では、品質と効率のバランスのため、ganベースのフレームワークを利用してこの問題に取り組むことを好む。
しかし、これらの手法は長期分布に対する安定性の低下と適応性に悩まされ、ソースのアイデンティティを同時に保持できず、詳細を復元することができない。
本稿では,トレーニング崩壊の回避とロングテール分布の生成という面において,ganよりも優れていることを考慮し,bfrに拡散確率モデル(dpm)を導入することを提案する。
DiffBFRは2段階の設計を用いて、まず低画質の画像から識別情報を復元し、実際の顔の分布に応じてテクスチャの詳細を強化する。
この設計は2つの重要なコンポーネントで実装されている。
1) 結果の顔の詳細を保存するためのアイデンティティ復元モジュール(IRM)
逆過程の条件として,LQ画像を用いた純ガウス的ランダム分布からノイズを除去する代わりに,部分雑音を付加したLQ画像から始まる新しい切り出しサンプリング手法を提案する。
理論的には、この変化はDPMの限界の低い証拠を縮小し、さらにオリジナルの詳細を復元する。
理論的証明により、入力サイズが異なる2つのカスケード条件DPMを導入し、このサンプリング効果を強化し、直接発生する高解像度画像のトレーニング困難を軽減する。
2)画像のテクスチャを磨くためのテクスチャ強化モジュール(TEM)。
ここでは、LQフリーモデルである無条件DPMを導入し、修復を現実的に見せるように強制する。
理論上は、純粋なHQ画像に基づいて訓練されたこの非条件DPMが、IRMから出力される推論画像の画素レベルの正しい分布を正当化するのに役立つことを証明した。
分節時間ステップの切り抜きサンプリングを用いて、アイデンティティ情報を保持しながら画素レベルのテクスチャを研磨する。
関連論文リスト
- Realistic Extreme Image Rescaling via Generative Latent Space Learning [51.85790402171696]
極端画像再スケーリングのためのLatent Space Based Image Rescaling (LSBIR) という新しいフレームワークを提案する。
LSBIRは、訓練済みのテキスト-画像拡散モデルによって学習された強力な自然画像の先行を効果的に活用し、リアルなHR画像を生成する。
第1段階では、擬似非可逆エンコーダデコーダは、HR画像の潜在特徴とターゲットサイズのLR画像との双方向マッピングをモデル化する。
第2段階では、第1段階からの再構成された特徴を事前訓練された拡散モデルにより洗練し、より忠実で視覚的に喜ぶ詳細を生成する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - BlindDiff: Empowering Degradation Modelling in Diffusion Models for Blind Image Super-Resolution [52.47005445345593]
BlindDiff は SISR のブラインド劣化に対処するための DM ベースのブラインドSR 手法である。
BlindDiffはMAPベースの最適化をDMにシームレスに統合する。
合成データセットと実世界のデータセットの両方の実験は、BlindDiffが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-03-15T11:21:34Z) - BFRFormer: Transformer-based generator for Real-World Blind Face
Restoration [37.77996097891398]
本稿では,トランスフォーマーをベースとしたブラインドフェイス復元手法BFRFormerを提案する。
提案手法は, 合成データセットと実世界の4つのデータセットにおいて, 最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-02-29T02:31:54Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:22:24Z) - Dual-Diffusion: Dual Conditional Denoising Diffusion Probabilistic
Models for Blind Super-Resolution Reconstruction in RSIs [6.2678394285548755]
条件付きデノゲーション拡散確率モデル(DDPM)に基づく新しいブラインドSRフレームワークを提案する。
本研究では,カーネル推定の進展と再構築の進展という2つの側面から,条件付き分散確率モデル(DDPM)を導入する。
我々は、LR画像からHR画像へのマッピングを学習するためのDDPMベースの再構成器を構築する。
論文 参考訳(メタデータ) (2023-05-20T11:18:38Z) - Unsupervised Representation Learning from Pre-trained Diffusion
Probabilistic Models [83.75414370493289]
拡散確率モデル(DPM)は高品質の画像サンプルを生成する強力な能力を示している。
Diff-AEは自動符号化による表現学習のためのDPMを探索するために提案されている。
我々は、既存のトレーニング済みDPMをデコーダに適応させるために、textbfPre-trained textbfAutotextbfEncoding (textbfPDAE)を提案する。
論文 参考訳(メタデータ) (2022-12-26T02:37:38Z) - DifFace: Blind Face Restoration with Diffused Error Contraction [62.476329680424975]
DifFaceは、複雑な損失設計なしで、目に見えない複雑な劣化にもっと優しく対処できる。
現在の最先端の手法よりも優れており、特に深刻な劣化の場合には優れている。
論文 参考訳(メタデータ) (2022-12-13T11:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。