論文の概要: IntereStyle: Encoding an Interest Region for Robust StyleGAN Inversion
- arxiv url: http://arxiv.org/abs/2209.10811v1
- Date: Thu, 22 Sep 2022 06:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 12:48:25.933962
- Title: IntereStyle: Encoding an Interest Region for Robust StyleGAN Inversion
- Title(参考訳): IntereStyle:ロバストスタイルGANインバージョンのための関心領域のエンコード
- Authors: Seungjun Moon, GyeongMoon Park
- Abstract要約: 興味領域に着目して符号化を容易にするトレーニングスキームであるIntereStyleを提案する。
既存の最先端エンコーダと比較して,IntereStyleは歪みが低く,知覚品質が高いことが実証された。
- 参考スコア(独自算出の注目度): 8.909115457491524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, manipulation of real-world images has been highly elaborated along
with the development of Generative Adversarial Networks (GANs) and
corresponding encoders, which embed real-world images into the latent space.
However, designing encoders of GAN still remains a challenging task due to the
trade-off between distortion and perception. In this paper, we point out that
the existing encoders try to lower the distortion not only on the interest
region, e.g., human facial region but also on the uninterest region, e.g.,
background patterns and obstacles. However, most uninterest regions in
real-world images are located at out-of-distribution (OOD), which are
infeasible to be ideally reconstructed by generative models. Moreover, we
empirically find that the uninterest region overlapped with the interest region
can mangle the original feature of the interest region, e.g., a microphone
overlapped with a facial region is inverted into the white beard. As a result,
lowering the distortion of the whole image while maintaining the perceptual
quality is very challenging. To overcome this trade-off, we propose a simple
yet effective encoder training scheme, coined IntereStyle, which facilitates
encoding by focusing on the interest region. IntereStyle steers the encoder to
disentangle the encodings of the interest and uninterest regions. To this end,
we filter the information of the uninterest region iteratively to regulate the
negative impact of the uninterest region. We demonstrate that IntereStyle
achieves both lower distortion and higher perceptual quality compared to the
existing state-of-the-art encoders. Especially, our model robustly conserves
features of the original images, which shows the robust image editing and style
mixing results. We will release our code with the pre-trained model after the
review.
- Abstract(参考訳): 近年、実世界の画像の操作は、実世界の画像を潜在空間に埋め込む生成的逆ネットワーク(gans)と対応するエンコーダの開発とともに、高度に精巧化されている。
しかし、歪みと知覚のトレードオフのため、GANのエンコーダの設計は依然として難しい課題である。
本稿では,既存のエンコーダが興味領域,例えば人間の顔領域だけでなく,背景パターンや障害物といった非興味領域においても歪みを低減しようとしていることを指摘する。
しかし、実世界の画像の最も興味のない領域のほとんどは、生成モデルによって理想的に再構築できない分布外領域(ood)にある。
さらに、興味領域と重なり合う非関心領域は、例えば、顔領域と重なり合うマイクを白ひげに逆転させるなど、興味領域の本来の特徴を具現化することができることを実証的に見出した。
その結果、知覚品質を維持しながら画像全体の歪みを小さくすることは極めて困難である。
このトレードオフを克服するため,我々は,関心領域に着目してエンコーディングを容易にする,単純かつ効果的なエンコーダトレーニングスキームである interestyle を提案する。
IntereStyleはエンコーダを操り、興味のある領域と興味のない領域のエンコードを切り離す。
この目的のために,不利な領域の情報を反復的にフィルタリングし,不利な領域の悪影響を規制する。
既存の最先端エンコーダと比較して,IntereStyleは歪みの低減と知覚品質の向上を実現している。
特に,本モデルでは画像の特徴を頑健に保存し,頑健な画像編集とスタイル混合の結果を示す。
レビューの後、トレーニング済みのモデルでコードをリリースします。
関連論文リスト
- Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Inharmonious Region Localization by Magnifying Domain Discrepancy [18.661683923953085]
不調和領域の局在化は、周囲の背景と相容れない合成画像における領域の局在化を目的としている。
本研究では,入力画像が別の色空間に変換され,不調和領域と背景領域との領域差が増大する傾向にある。
カラーマッピングモジュールと不調和領域ローカライゼーションネットワークからなる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:41:16Z) - Spatially-Adaptive Multilayer Selection for GAN Inversion and Editing [57.46189236379433]
本稿では,StyleGAN2 など,GAN の潜在空間における複雑な画像を反転・編集する手法を提案する。
我々のキーとなる考え方は、画像の難易度に逆過程を空間的に適応させることで、レイヤーの集合による逆転を探索することである。
論文 参考訳(メタデータ) (2022-06-16T17:57:49Z) - GLocal: Global Graph Reasoning and Local Structure Transfer for Person
Image Generation [2.580765958706854]
我々は、人像生成、すなわち、腐敗したテクスチャや異なるポーズなど、様々な条件下で人像を生成することに焦点を当てる。
本稿では,異なる意味領域間のスタイル相互相関を世界規模で推論することで,咬合認識のテクスチャ推定を改善するためのGLocalフレームワークを提案する。
局所構造情報保存のために,さらにソース画像の局所構造を抽出し,局所構造転送により生成画像に復元する。
論文 参考訳(メタデータ) (2021-12-01T03:54:30Z) - Learning Semantic Person Image Generation by Region-Adaptive
Normalization [81.52223606284443]
ポーズと外観の翻訳を扱う新しい2段階フレームワークを提案する。
第1段階では,対象意味解析マップを予測し,ポーズ転送の難しさを解消する。
第2段階では,領域適応正規化を組み込んだ新たな人物画像生成手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T06:51:37Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z) - Very Long Natural Scenery Image Prediction by Outpainting [96.8509015981031]
アウトペイントには2つの課題があるため、あまり注意を払わない。
第一の課題は、生成された画像と元の入力の間の空間的および内容的整合性を維持する方法である。
第2の課題は、生成した結果の高品質を維持する方法です。
論文 参考訳(メタデータ) (2019-12-29T16:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。