論文の概要: RefSTAR: Blind Facial Image Restoration with Reference Selection, Transfer, and Reconstruction
- arxiv url: http://arxiv.org/abs/2507.10470v1
- Date: Mon, 14 Jul 2025 16:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.554818
- Title: RefSTAR: Blind Facial Image Restoration with Reference Selection, Transfer, and Reconstruction
- Title(参考訳): RefSTAR : 基準選択, 移動, 再構成によるブラインド顔画像復元
- Authors: Zhicun Yin, Junjie Chen, Ming Liu, Zhixin Wang, Fan Li, Renjing Pei, Xiaoming Li, Rynson W. H. Lau, Wangmeng Zuo,
- Abstract要約: 本稿では,参照選択,移動,再構成を考慮した新しいブラインド顔画像復元手法を提案する。
種々のバックボーンモデルによる実験は優れた性能を示し、より優れたアイデンティティ保存能力と参照特徴伝達品質を示す。
- 参考スコア(独自算出の注目度): 75.00967931348409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Blind facial image restoration is highly challenging due to unknown complex degradations and the sensitivity of humans to faces. Although existing methods introduce auxiliary information from generative priors or high-quality reference images, they still struggle with identity preservation problems, mainly due to improper feature introduction on detailed textures. In this paper, we focus on effectively incorporating appropriate features from high-quality reference images, presenting a novel blind facial image restoration method that considers reference selection, transfer, and reconstruction (RefSTAR). In terms of selection, we construct a reference selection (RefSel) module. For training the RefSel module, we construct a RefSel-HQ dataset through a mask generation pipeline, which contains annotating masks for 10,000 ground truth-reference pairs. As for the transfer, due to the trivial solution in vanilla cross-attention operations, a feature fusion paradigm is designed to force the features from the reference to be integrated. Finally, we propose a reference image reconstruction mechanism that further ensures the presence of reference image features in the output image. The cycle consistency loss is also redesigned in conjunction with the mask. Extensive experiments on various backbone models demonstrate superior performance, showing better identity preservation ability and reference feature transfer quality. Source code, dataset, and pre-trained models are available at https://github.com/yinzhicun/RefSTAR.
- Abstract(参考訳): ブラインド顔画像の復元は、未知の複雑な劣化と、人間の顔に対する感受性のために非常に困難である。
既存の手法では、生成前の情報や高品質な参照画像から補助情報を導入するが、細かなテクスチャに不適切な特徴を導入するため、アイデンティティ保存の問題に苦慮している。
本稿では,参照選択,転送,再構成(RefSTAR)を考慮した新しいブラインド顔画像復元手法を提案する。
選択に関して、参照選択(RefSel)モジュールを構築します。
RefSelモジュールをトレーニングするために、マスク生成パイプラインを通じてRefSel-HQデータセットを構築します。
転送に関しては、バニラのクロスアテンション操作における自明なソリューションのため、機能統合パラダイムは、その機能を統合される参照から強制するように設計されている。
最後に,出力画像における参照画像の特徴の存在を確実にする参照画像再構成機構を提案する。
サイクルの整合性損失もマスクと共に再設計された。
様々なバックボーンモデルに対する広範囲な実験は、優れた性能を示し、アイデンティティ保存能力と参照特徴伝達品質を示している。
ソースコード、データセット、事前トレーニングされたモデルはhttps://github.com/yinzhicun/RefSTAR.comで入手できる。
関連論文リスト
- Reference-Guided Identity Preserving Face Restoration [54.10295747851343]
顔のアイデンティティを保存することは、拡散に基づく画像復元において重要な課題である。
本稿では,顔の復元とアイデンティティの保存を改善するために,参照顔の有用性を最大化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-28T02:46:34Z) - Visual Style Prompt Learning Using Diffusion Models for Blind Face Restoration [16.67947885664477]
ブラインド顔復元は、さまざまな未確認の劣化源から高品質な顔画像の復元を目的としている。
それまでの知識に基づく手法は、幾何学的先行と顔の特徴を活用し、顔の復元の進歩をもたらしたが、細部を捉えるには至らなかった。
拡散確率モデルを用いて視覚的プロンプトを明示的に生成する視覚的スタイルのプロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-30T16:05:40Z) - Refine-by-Align: Reference-Guided Artifacts Refinement through Semantic Alignment [40.112548587906005]
本稿では、この課題に対処するために拡散ベースのフレームワークを利用する、第一種モデルであるRefine-by-Alignを紹介する。
我々のパイプラインは、画像合成モデルにおける細部の境界を大幅に推し進めている。
論文 参考訳(メタデータ) (2024-11-30T01:26:04Z) - Overcoming False Illusions in Real-World Face Restoration with Multi-Modal Guided Diffusion Model [55.46927355649013]
本稿では,新しいマルチモーダル・リアル・ワールド・フェイス・リカバリ技術を紹介する。
MGFRは偽の顔の特徴とアイデンティティの生成を緩和することができる。
4800のアイデンティティにまたがる21,000以上の高解像度顔画像からなるReface-HQデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-05T13:46:56Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - TransRef: Multi-Scale Reference Embedding Transformer for Reference-Guided Image Inpainting [45.31389892299325]
本稿では,トランスレフと呼ばれるトランスフォーマーベースのエンコーダデコーダネットワークを提案する。
参照特徴を正確に活用するために、参照パッチアライメント(Ref-PA)モジュールを提案し、参照画像と破損画像のパッチ特徴を整列させる。
入力画像と参照画像の50Kペアを含む,公開可能なベンチマークデータセットを構築した。
論文 参考訳(メタデータ) (2023-06-20T13:31:33Z) - Mask Reference Image Quality Assessment [8.087355843192109]
Mask Reference IQA (MR-IQA) は、歪んだ画像の特定のパッチを隠蔽し、参照画像パッチで欠落したパッチを補う方法である。
提案手法は,ベンチマークKADID-10k, LIVE, CSIQデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-27T13:52:38Z) - Blind Face Restoration via Deep Multi-scale Component Dictionaries [75.02640809505277]
劣化した観測の復元過程をガイドするディープフェイス辞書ネットワーク(DFDNet)を提案する。
DFDNetは高品質な画像から知覚的に重要な顔成分のディープ辞書を生成する。
コンポーネントAdaINは、入力機能と辞書機能の間のスタイルの多様性を取り除くために利用される。
論文 参考訳(メタデータ) (2020-08-02T07:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。