論文の概要: Spatial Steerability of GANs via Self-Supervision from Discriminator
- arxiv url: http://arxiv.org/abs/2301.08455v1
- Date: Fri, 20 Jan 2023 07:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-23 13:39:54.597933
- Title: Spatial Steerability of GANs via Self-Supervision from Discriminator
- Title(参考訳): 判別器からの自己スーパービジョンによるGANの空間安定性
- Authors: Jianyuan Wang, Ceyuan Yang, Yinghao Xu, Yujun Shen, Hongdong Li, Bolei
Zhou
- Abstract要約: GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ヒトは空間熱マップと直感的に対話して出力画像の編集を行うことができる。
- 参考スコア(独自算出の注目度): 114.99481590500294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models make huge progress to the photorealistic image synthesis in
recent years. To enable human to steer the image generation process and
customize the output, many works explore the interpretable dimensions of the
latent space in GANs. Existing methods edit the attributes of the output image
such as orientation or color scheme by varying the latent code along certain
directions. However, these methods usually require additional human annotations
for each pretrained model, and they mostly focus on editing global attributes.
In this work, we propose a self-supervised approach to improve the spatial
steerability of GANs without searching for steerable directions in the latent
space or requiring extra annotations. Specifically, we design randomly sampled
Gaussian heatmaps to be encoded into the intermediate layers of generative
models as spatial inductive bias. Along with training the GAN model from
scratch, these heatmaps are being aligned with the emerging attention of the
GAN's discriminator in a self-supervised learning manner. During inference,
human users can intuitively interact with the spatial heatmaps to edit the
output image, such as varying the scene layout or moving objects in the scene.
Extensive experiments show that the proposed method not only enables spatial
editing over human faces, animal faces, outdoor scenes, and complicated indoor
scenes, but also brings improvement in synthesis quality.
- Abstract(参考訳): 生成モデルは近年のフォトリアリスティック画像合成に大きな進歩を遂げている。
画像生成プロセスのステアリングと出力のカスタマイズを可能にするため、多くの研究がGANの潜在空間の解釈可能な次元を探索している。
既存の方法は、特定の方向に沿って遅延コードを変更することで、方向や色調などの出力画像の属性を編集する。
しかしながら、これらの手法は通常、事前訓練されたモデルごとに追加のヒューマンアノテーションを必要とし、主にグローバル属性の編集に焦点を当てる。
本研究では,潜在空間における制御可能な方向を探索したり,追加のアノテーションを必要とせずにganの空間制御性を改善するための自己教師あり手法を提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
GANモデルをゼロからトレーニングすると同時に、これらのヒートマップは、自己監督的な学習方法で、GANの差別者の関心の高まりに合わせている。
推論中、人間のユーザは空間のヒートマップと直感的に対話して、シーンレイアウトの変更やシーン内の移動オブジェクトなどの出力イメージを編集することができる。
大規模な実験により,提案手法は人間の顔,動物の顔,屋外シーン,複雑な屋内シーンの空間的編集を可能にするだけでなく,合成品質の向上ももたらした。
関連論文リスト
- Move Anything with Layered Scene Diffusion [77.45870343845492]
拡散サンプリング過程におけるシーン表現を最適化するために,SceneDiffusionを提案する。
我々の重要な洞察は、異なる空間配置のシーンレンダリングを共同でデノベートすることで、空間的ゆがみを得ることができることである。
生成したシーンは、移動、再サイズ、クローニング、レイヤーワイドな外観編集操作を含む、幅広い空間編集操作をサポートする。
論文 参考訳(メタデータ) (2024-04-10T17:28:16Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - High-fidelity GAN Inversion with Padding Space [38.9258619444968]
GAN(Generative Adversarial Network)の反転は、事前訓練されたジェネレータを用いた幅広い画像編集作業を容易にする。
既存の手法では、通常、反転空間としてGANの潜伏空間を用いるが、空間詳細の回復は不十分である。
本稿では, 潜伏空間を空間情報で補うため, ジェネレータのパディング空間を包含することを提案する。
論文 参考訳(メタデータ) (2022-03-21T16:32:12Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Mask-Guided Discovery of Semantic Manifolds in Generative Models [0.0]
StyleGAN2は、低次元の潜在空間内のランダムベクトルから人間の顔の画像を生成する。
モデルはブラックボックスとして動作し、出力の制御も、データから学んだ構造についての洞察も提供しない。
顔の空間的局所化領域の変化の多様体を探索する手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T18:06:38Z) - Navigating the GAN Parameter Space for Semantic Image Editing [35.622710993417456]
Generative Adversarial Networks (GAN) はビジュアル編集に必須のツールである。
本稿では,StyleGAN2のような最先端のモデルで実現可能な視覚効果の範囲を大きく広げる。
論文 参考訳(メタデータ) (2020-11-27T15:38:56Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。