論文の概要: Semantic-Guided Two-Stage GAN for Face Inpainting with Hybrid Perceptual Encoding
- arxiv url: http://arxiv.org/abs/2512.05039v1
- Date: Thu, 04 Dec 2025 17:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.308457
- Title: Semantic-Guided Two-Stage GAN for Face Inpainting with Hybrid Perceptual Encoding
- Title(参考訳): ハイブリッド知覚符号化による顔ペンキ用セマンティックガイド2段階GAN
- Authors: Abhigyan Bhattacharya, Hiranmoy Roy,
- Abstract要約: Facial Image inpaintingは、アイデンティティ、構造的一貫性、画質を保ちながら、顔画像の欠落した領域や破損した領域を復元することを目的としている。
既存の方法は大きな不規則なマスクで問題に直面し、しばしばマスクされた領域の端にぼやけたテクスチャを生み出す。
本稿では,これらの課題に対処する新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 1.7761223012399532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial Image inpainting aim is to restore the missing or corrupted regions in face images while preserving identity, structural consistency and photorealistic image quality, a task specifically created for photo restoration. Though there are recent lot of advances in deep generative models, existing methods face problems with large irregular masks, often producing blurry textures on the edges of the masked region, semantic inconsistencies, or unconvincing facial structures due to direct pixel level synthesis approach and limited exploitation of facial priors. In this paper we propose a novel architecture, which address these above challenges through semantic-guided hierarchical synthesis. Our approach starts with a method that organizes and synthesizes information based on meaning, followed by refining the texture. This process gives clear insights into the facial structure before we move on to creating detailed images. In the first stage, we blend two techniques: one that focuses on local features with CNNs and global features with Vision Transformers. This helped us create clear and detailed semantic layouts. In the second stage, we use a Multi-Modal Texture Generator to refine these layouts by pulling in information from different scales, ensuring everything looks cohesive and consistent. The architecture naturally handles arbitrary mask configurations through dynamic attention without maskspecific training. Experiment on two datasets CelebA-HQ and FFHQ shows that our model outperforms other state-of-the-art methods, showing improvements in metrics like LPIPS, PSNR, and SSIM. It produces visually striking results with better semantic preservation, in challenging large-area inpainting situations.
- Abstract(参考訳): 顔認識の目的は、顔画像の欠落した領域や破損した領域を、アイデンティティ、構造的一貫性、フォトリアリスティックな画像品質を保ちながら復元することである。
深層生成モデルには近年,多くの進歩があるが,既存の手法では大きな不規則なマスクが問題視され,マスキング領域の端にぼやけたテクスチャや意味的不整合,あるいは直接画素レベルの合成アプローチや顔の先行の限定的利用などにより,顔構造が不整合であることが多い。
本稿では,これらの課題に対処する新しいアーキテクチャを提案する。
我々のアプローチは、意味に基づいて情報を整理し、合成する手法から始まり、続いてテクスチャを精製する。
このプロセスは、詳細な画像を作成する前に、顔の構造について明確な洞察を与える。
最初の段階では、CNNのローカル機能とVision Transformersのグローバル機能に焦点を当てた2つのテクニックをブレンドします。
これにより、明確で詳細なセマンティックレイアウトの作成に役立ちました。
第2段階では、マルチモーダルテクスチャジェネレータを使用して、異なるスケールから情報を引き出し、すべてが密集的で一貫したように見えるようにすることで、これらのレイアウトを洗練します。
アーキテクチャは、マスク固有のトレーニングなしで動的注意を通じて、任意のマスク構成を自然に処理する。
CelebA-HQとFFHQの2つのデータセットの実験により、我々のモデルは他の最先端の手法よりも優れており、LPIPS、PSNR、SSIMといったメトリクスの改善が示されている。
視覚的に印象的な結果が得られ、セマンティックな保存性が向上し、大面積の塗装に挑戦する。
関連論文リスト
- ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Semantic Image Translation for Repairing the Texture Defects of Building
Models [16.764719266178655]
本稿では, ファサードテクスチャ画像の合成手法を提案する。
提案手法は,既存のテクスチャを欠いたファッケードに対して,テクスチャイメージを特定のスタイルで合成することも可能である。
論文 参考訳(メタデータ) (2023-03-30T14:38:53Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Self-supervised High-fidelity and Re-renderable 3D Facial Reconstruction
from a Single Image [19.0074836183624]
そこで本研究では,高品質な3次元顔の再構築を目的とした,新たな自己教師型学習フレームワークを提案する。
我々のフレームワークは質的比較と量的比較の両方において最先端のアプローチを大幅に上回っている。
論文 参考訳(メタデータ) (2021-11-16T08:10:24Z) - FT-TDR: Frequency-guided Transformer and Top-Down Refinement Network for
Blind Face Inpainting [77.78305705925376]
ブラインド・フェイス・インペインティング(ブラインド・フェイス・インペインティング)とは、顔画像の劣化した領域を明確に示さずに、視覚コンテンツを再構築する作業である。
本稿では、これらの課題に対処するために、周波数誘導変換器とTop-Down Refinement Network(FT-TDR)と呼ばれる新しい2段階ブラインドフェイス塗装法を提案する。
論文 参考訳(メタデータ) (2021-08-10T03:12:01Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Foreground-guided Facial Inpainting with Fidelity Preservation [7.5089719291325325]
本稿では,畳み込みニューラルネットワーク層を用いて顔特徴を抽出・生成できるフォアグラウンド誘導型顔塗工フレームワークを提案する。
具体的には,表情の意味的能力推論,自然・不自然な特徴(メイクアップ)を用いた新しい損失関数を提案する。
提案手法は, 顔成分の高忠実度保存を, 質的に比較すると, 比較して定量的な結果を得た。
論文 参考訳(メタデータ) (2021-05-07T15:50:58Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。