論文の概要: ReF-LDM: A Latent Diffusion Model for Reference-based Face Image Restoration
- arxiv url: http://arxiv.org/abs/2412.05043v1
- Date: Fri, 06 Dec 2024 13:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:54.687306
- Title: ReF-LDM: A Latent Diffusion Model for Reference-based Face Image Restoration
- Title(参考訳): ReF-LDM:参照型顔画像復元のための潜時拡散モデル
- Authors: Chi-Wei Hsiao, Yu-Lun Liu, Cheng-Kun Yang, Sheng-Po Kuo, Kevin Jou, Chia-Ping Chen,
- Abstract要約: 本稿では、1つのLQ画像と複数のHQ参照画像に条件付けされたHQ顔画像を生成するために設計されたLDMの適応であるReF-LDMを提案する。
我々のモデルは、生成プロセス中に参照画像を活用するために、効果的で効率的なメカニズムであるCacheKVを統合している。
最後に,20,405個の高品質な顔画像と対応する参照画像からなるデータセットであるFFHQ-Refを構築した。
- 参考スコア(独自算出の注目度): 11.712490684089609
- License:
- Abstract: While recent works on blind face image restoration have successfully produced impressive high-quality (HQ) images with abundant details from low-quality (LQ) input images, the generated content may not accurately reflect the real appearance of a person. To address this problem, incorporating well-shot personal images as additional reference inputs could be a promising strategy. Inspired by the recent success of the Latent Diffusion Model (LDM), we propose ReF-LDM, an adaptation of LDM designed to generate HQ face images conditioned on one LQ image and multiple HQ reference images. Our model integrates an effective and efficient mechanism, CacheKV, to leverage the reference images during the generation process. Additionally, we design a timestep-scaled identity loss, enabling our LDM-based model to focus on learning the discriminating features of human faces. Lastly, we construct FFHQ-Ref, a dataset consisting of 20,405 high-quality (HQ) face images with corresponding reference images, which can serve as both training and evaluation data for reference-based face restoration models.
- Abstract(参考訳): 近年のブラインドフェイス画像復元の研究は、低品質(LQ)入力画像から高精細な高画質(HQ)画像を生成することに成功したが、生成した内容は人物の実際の外観を正確に反映するものではない。
この問題に対処するためには、鮮やかなパーソナルイメージを追加の参照入力として組み込むことが有望な戦略である可能性がある。
ReF-LDMは、1つのLQ画像と複数のHQ参照画像に条件付けされたHQ顔画像を生成するために設計されたLDMの適応である。
我々のモデルは、生成プロセス中に参照画像を活用するために、効果的で効率的なメカニズムであるCacheKVを統合している。
さらに、時間スケールのアイデンティティ損失を設計し、LCMベースのモデルで人間の顔の特徴を識別することに集中できるようにする。
最後に、FFHQ-Refという、20,405個の高品質な顔画像と対応する参照画像からなるデータセットを構築し、参照ベースの顔復元モデルのトレーニングおよび評価データとして機能する。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Overcoming False Illusions in Real-World Face Restoration with Multi-Modal Guided Diffusion Model [55.46927355649013]
本稿では,新しいマルチモーダル・リアル・ワールド・フェイス・リカバリ技術を紹介する。
MGFRは偽の顔の特徴とアイデンティティの生成を緩和することができる。
5000のアイデンティティにまたがる23,000以上の高解像度の顔画像からなるReface-HQデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-05T13:46:56Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - PFStorer: Personalized Face Restoration and Super-Resolution [19.479263766534345]
顔修復の最近の進歩は、高品質でライフスタイルのアウトプットを生み出すことに顕著な成果を上げている。
しかし、驚くべき結果は、モデルに必要なコンテキストが欠如しているため、人のアイデンティティに忠実でないことがしばしばあります。
提案手法では, 個人像を用いて復元モデルをパーソナライズし, 詳細な情報を保持しつつ, 個人像に対して調整した復元を行う。
論文 参考訳(メタデータ) (2024-03-13T11:39:30Z) - Learning from History: Task-agnostic Model Contrastive Learning for
Image Restoration [79.04007257606862]
本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史からの学習」という革新的な手法を提案する。
我々のアプローチはMCLIR(Model Contrastive Learning for Image Restoration)と呼ばれ、遅延モデルを負のモデルとして再定義し、多様な画像復元タスクと互換性を持たせる。
論文 参考訳(メタデータ) (2023-09-12T07:50:54Z) - Synthesizing Realistic Image Restoration Training Pairs: A Diffusion
Approach [24.41545801521035]
教師付き画像復元タスクでは、高品質(HQ)と低品質(LQ)のトレーニングイメージペアをどのように取得するかが課題である。
現像拡散確率モデル(DDPM)を用いた現実的画像復元訓練ペアの合成手法を提案する。
分散近似におけるDDPMの強い能力により、合成されたHQ-LQイメージペアは、実世界の画像復元タスクのための堅牢なモデルをトレーニングするために使用することができる。
論文 参考訳(メタデータ) (2023-03-13T10:49:59Z) - Super-resolution Reconstruction of Single Image for Latent features [8.857209365343646]
単一像超解像(SISR)は、通常、様々な劣化した低分解能(LR)画像を単一の高分解能(HR)画像に復元することに焦点を当てる。
モデルが細部やテクスチャの多様性を保ちながら、高品質かつ迅速なサンプリングを同時に維持することは、しばしば困難である。
この課題は、モデル崩壊、再構成されたHR画像におけるリッチディテールとテクスチャの特徴の欠如、モデルサンプリングの過剰な時間消費などの問題を引き起こす可能性がある。
論文 参考訳(メタデータ) (2022-11-16T09:37:07Z) - Joint Face Image Restoration and Frontalization for Recognition [79.78729632975744]
現実世界のシナリオでは、大きなポーズ、悪い照明、低解像度、ぼやけ、ノイズなど、多くの要因が顔認識性能を損なう可能性がある。
それまでの努力は通常、まず品質の低い顔から高品質な顔に復元し、次に顔認識を行う。
与えられた低品質の顔からフロンダル化された高品質の顔を復元する多段階顔復元モデルを提案する。
論文 参考訳(メタデータ) (2021-05-12T03:52:41Z) - Joint Face Completion and Super-resolution using Multi-scale Feature
Relation Learning [26.682678558621625]
本稿では,MFG-GAN(MFG-GAN)を用いたマルチスケール機能グラフ生成手法を提案する。
GANに基づいて、MFG-GANはグラフ畳み込みとピラミッドネットワークを統合し、隠蔽された低解像度の顔画像を非隠蔽の高解像度の顔画像に復元する。
パブリックドメインCelebAとHelenデータベースの実験結果から,提案手法は顔超解像(最大4倍または8倍)と顔補完を同時に行う上で,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-02-29T13:31:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。