論文の概要: Generative Fields: Uncovering Hierarchical Feature Control for StyleGAN via Inverted Receptive Fields
- arxiv url: http://arxiv.org/abs/2504.17712v1
- Date: Thu, 24 Apr 2025 16:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.462957
- Title: Generative Fields: Uncovering Hierarchical Feature Control for StyleGAN via Inverted Receptive Fields
- Title(参考訳): 生成場:逆受容場によるスタイルGANの階層的特徴制御を明らかにする
- Authors: Zhuo He, Paul Henderson, Nicolas Pugeault,
- Abstract要約: 本稿では,StyleGANの階層的特徴合成を説明するために,ジェネレーティブフィールドの概念を紹介する。
本稿では、生成場理論とチャネルワイドなラテント空間Sを用いて、StyleGANのための新しい画像編集パイプラインを提案する。
- 参考スコア(独自算出の注目度): 5.653106385738823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: StyleGAN has demonstrated the ability of GANs to synthesize highly-realistic faces of imaginary people from random noise. One limitation of GAN-based image generation is the difficulty of controlling the features of the generated image, due to the strong entanglement of the low-dimensional latent space. Previous work that aimed to control StyleGAN with image or text prompts modulated sampling in W latent space, which is more expressive than Z latent space. However, W space still has restricted expressivity since it does not control the feature synthesis directly; also the feature embedding in W space requires a pre-training process to reconstruct the style signal, limiting its application. This paper introduces the concept of "generative fields" to explain the hierarchical feature synthesis in StyleGAN, inspired by the receptive fields of convolution neural networks (CNNs). Additionally, we propose a new image editing pipeline for StyleGAN using generative field theory and the channel-wise style latent space S, utilizing the intrinsic structural feature of CNNs to achieve disentangled control of feature synthesis at synthesis time.
- Abstract(参考訳): StyleGANは、ランダムノイズから想像上の人々の高現実的な顔を合成するGANの能力を実証した。
GANに基づく画像生成の1つの制限は、低次元の潜在空間の強い絡み合いのため、生成した画像の特徴を制御するのが難しいことである。
画像やテキストでStyleGANを制御しようとする以前の作業は、Z潜時空間よりも表現力が高いW潜時空間における変調サンプリングを促す。
しかしながら、W空間は、直接的に特徴合成を制御しないため、表現性は制限されており、W空間に埋め込まれた特徴は、スタイル信号を再構成する事前学習プロセスを必要とし、その適用を制限している。
本稿では、畳み込みニューラルネットワーク(CNN)の受容的場に触発された、StyleGANの階層的特徴合成を説明するために、「生成的場」の概念を紹介する。
さらに,CNNの内在的構造的特徴を利用して,生成場理論とチャネルワイドな潜在空間Sを用いたStyleGANの新たな画像編集パイプラインを提案し,合成時の特徴合成のアンタングル制御を実現する。
関連論文リスト
- In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Discovering Class-Specific GAN Controls for Semantic Image Synthesis [73.91655061467988]
本稿では,事前訓練されたSISモデルの潜在空間において,空間的に不整合なクラス固有方向を求める新しい手法を提案する。
提案手法によって検出される潜在方向は,セマンティッククラスの局所的な外観を効果的に制御できることを示す。
論文 参考訳(メタデータ) (2022-12-02T21:39:26Z) - High-resolution Face Swapping via Latent Semantics Disentanglement [50.23624681222619]
本稿では,事前学習したGANモデルの事前知識を用いた,新しい高分解能幻覚顔交換法を提案する。
我々は、ジェネレータの進行的な性質を利用して、潜在意味論を明示的に解き放つ。
我々は,2時間制約を潜時空間と画像空間に課すことにより,映像面スワップに拡張する。
論文 参考訳(メタデータ) (2022-03-30T00:33:08Z) - High-fidelity GAN Inversion with Padding Space [38.9258619444968]
GAN(Generative Adversarial Network)の反転は、事前訓練されたジェネレータを用いた幅広い画像編集作業を容易にする。
既存の手法では、通常、反転空間としてGANの潜伏空間を用いるが、空間詳細の回復は不十分である。
本稿では, 潜伏空間を空間情報で補うため, ジェネレータのパディング空間を包含することを提案する。
論文 参考訳(メタデータ) (2022-03-21T16:32:12Z) - SemanticStyleGAN: Learning Compositional Generative Priors for
Controllable Image Synthesis and Editing [35.02841064647306]
StyleGANは、画像合成と編集の下流タスクに有望な事前モデルを提供する。
本稿では,ジェネレータが局所的な意味部分を個別にモデル化し,構成的に画像を合成するように訓練されるSemanticStyleGANを提案する。
論文 参考訳(メタデータ) (2021-12-04T04:17:11Z) - Diagonal Attention and Style-based GAN for Content-Style Disentanglement
in Image Generation and Translation [34.24876359759408]
階層的適応型対角的空間アテンション層を新規に提示し,スタイルから空間内容を階層的に操作する。
空間内容やスタイルを粗小から微妙に切り離す手法です。
我々のジェネレータはganインバージョンフレームワークに容易に統合でき、翻訳画像の内容やスタイルを柔軟に制御できます。
論文 参考訳(メタデータ) (2021-03-30T08:00:13Z) - Positional Encoding as Spatial Inductive Bias in GANs [97.6622154941448]
SinGANは限られた有効な受容器分野にもかかわらず内部パッチ配分の学習の印象的な機能を示します。
本研究では,発電機のパディングゼロ時における暗黙的位置符号化によって,このような能力が大幅にもたらされることを示した。
本稿では,新しいマルチスケール学習戦略を提案し,その効果を最新型無条件発電機stylegan2で実証する。
論文 参考訳(メタデータ) (2020-12-09T18:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。