論文の概要: High-Fidelity Image Inpainting with Multimodal Guided GAN Inversion
- arxiv url: http://arxiv.org/abs/2504.12844v1
- Date: Thu, 17 Apr 2025 10:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:49.880211
- Title: High-Fidelity Image Inpainting with Multimodal Guided GAN Inversion
- Title(参考訳): マルチモーダル誘導型GANインバージョンによる高忠実像像化
- Authors: Libo Zhang, Yongsheng Yu, Jiali Yao, Heng Fan,
- Abstract要約: 本稿では,画像インペイントのための新しいGANインバージョン手法MMInvertFillを提案する。
MMInvertFillは、主に事前変調のマルチモーダル誘導エンコーダと、F&W+遅延空間のGANジェネレータを含む。
MMInvertFillは他の最先端技術よりも質的に定量的に優れていることを示す。
- 参考スコア(独自算出の注目度): 15.202130790708747
- License:
- Abstract: Generative Adversarial Network (GAN) inversion have demonstrated excellent performance in image inpainting that aims to restore lost or damaged image texture using its unmasked content. Previous GAN inversion-based methods usually utilize well-trained GAN models as effective priors to generate the realistic regions for missing holes. Despite excellence, they ignore a hard constraint that the unmasked regions in the input and the output should be the same, resulting in a gap between GAN inversion and image inpainting and thus degrading the performance. Besides, existing GAN inversion approaches often consider a single modality of the input image, neglecting other auxiliary cues in images for improvements. Addressing these problems, we propose a novel GAN inversion approach, dubbed MMInvertFill, for image inpainting. MMInvertFill contains primarily a multimodal guided encoder with a pre-modulation and a GAN generator with F&W+ latent space. Specifically, the multimodal encoder aims to enhance the multi-scale structures with additional semantic segmentation edge texture modalities through a gated mask-aware attention module. Afterwards, a pre-modulation is presented to encode these structures into style vectors. To mitigate issues of conspicuous color discrepancy and semantic inconsistency, we introduce the F&W+ latent space to bridge the gap between GAN inversion and image inpainting. Furthermore, in order to reconstruct faithful and photorealistic images, we devise a simple yet effective Soft-update Mean Latent module to capture more diversified in-domain patterns for generating high-fidelity textures for massive corruptions. In our extensive experiments on six challenging datasets, we show that our MMInvertFill qualitatively and quantitatively outperforms other state-of-the-arts and it supports the completion of out-of-domain images effectively.
- Abstract(参考訳): GAN(Generative Adversarial Network)のインバージョンは, 劣化した画像テクスチャの復元を目的とした画像インペインティングにおいて, 優れた性能を示した。
従来の GAN インバージョンに基づく手法は、よく訓練された GAN モデルを有効な先行モデルとして利用し、欠落した穴に対して現実的な領域を生成する。
優れたにもかかわらず、彼らは入力と出力の未一致領域が同じであるべきであるという厳しい制約を無視し、その結果、GANの反転と画像のインパインティングのギャップが生じ、性能が低下する。
さらに、既存のGANインバージョンアプローチは入力画像の単一のモダリティを考慮し、改善のために画像の他の補助的手がかりを無視することが多い。
これらの問題に対処するため,画像のインペイントのための新しいGANインバージョン手法MMInvertFillを提案する。
MMInvertFillは、主に事前変調のマルチモーダル誘導エンコーダと、F&W+遅延空間のGANジェネレータを含む。
特に,マルチモーダルエンコーダは,有意なマスク認識型アテンションモジュールを通じて,セマンティックセグメンテーションエッジテクスチャを付加したマルチスケール構造を強化することを目的としている。
その後、これらの構造をスタイルベクトルにエンコードする事前変調が提示される。
色差と意味的不整合の問題を緩和するために,GANインバージョンと画像インペイントのギャップを埋めるためにF&W+潜時空間を導入する。
さらに,忠実でフォトリアリスティックなイメージを再構成するために,高忠実なテクスチャを生成するために,より多彩なドメイン内パターンをキャプチャする,シンプルで効果的なソフトアップデート平均潜時モジュールを考案した。
6つの挑戦的データセットに関する広範な実験において、我々のMMInvertFillは他の最先端技術よりも質的に定量的に優れており、ドメイン外の画像の補完を効果的にサポートすることを示す。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - High-Fidelity Image Inpainting with GAN Inversion [23.49170140410603]
本稿では,InvertFillと呼ばれる画像インペイントのための新しいGANインバージョンモデルを提案する。
エンコーダ内では、事前変調ネットワークがマルチスケール構造を利用して、より差別的なセマンティクスをスタイルベクトルにエンコードする。
忠実でフォトリアリスティックなイメージを再構築するために、シンプルだが効果的なSoft-update Mean Latentモジュールは、大規模な腐敗のために高忠実なテクスチャを合成する、より多様なドメイン内パターンをキャプチャするように設計されている。
論文 参考訳(メタデータ) (2022-08-25T03:39:24Z) - Unbiased Multi-Modality Guidance for Image Inpainting [27.286351511243502]
画像インペイントのためのエンド・ツー・エンドマルチモダリティ誘導型トランスフォーマネットワークを開発した。
各トランスブロック内において,提案した空間認識型アテンションモジュールは,マルチモーダルな構造特徴を効率的に学習することができる。
本手法は,複数のモーダルからの識別情報に基づいて,画像中の意味的一貫した文脈を豊かにする。
論文 参考訳(メタデータ) (2022-08-25T03:13:43Z) - PC-GANs: Progressive Compensation Generative Adversarial Networks for
Pan-sharpening [50.943080184828524]
空間情報とスペクトル情報の漸進的補償によりMS画像のシャープ化を行うパンシャーピングの新しい2段階モデルを提案する。
モデル全体が三重GANで構成されており、特定のアーキテクチャに基づいて、三重GANを同時に訓練できるように、共同補償損失関数が設計されている。
論文 参考訳(メタデータ) (2022-07-29T03:09:21Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。