論文の概要: LinkGAN: Linking GAN Latents to Pixels for Controllable Image Synthesis
- arxiv url: http://arxiv.org/abs/2301.04604v2
- Date: Mon, 25 Sep 2023 08:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 04:12:40.146078
- Title: LinkGAN: Linking GAN Latents to Pixels for Controllable Image Synthesis
- Title(参考訳): LinkGAN:制御可能な画像合成のためのGANラテントと画素のリンク
- Authors: Jiapeng Zhu, Ceyuan Yang, Yujun Shen, Zifan Shi, Bo Dai, Deli Zhao,
Qifeng Chen
- Abstract要約: 本研究は、GANトレーニングのための使い易い正規化器を提案する。
これは、潜在空間のいくつかの軸を合成画像中のピクセルの集合に明示的に関連付けるのに役立つ。
- 参考スコア(独自算出の注目度): 104.26279487968839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents an easy-to-use regularizer for GAN training, which helps
explicitly link some axes of the latent space to a set of pixels in the
synthesized image. Establishing such a connection facilitates a more convenient
local control of GAN generation, where users can alter the image content only
within a spatial area simply by partially resampling the latent code.
Experimental results confirm four appealing properties of our regularizer,
which we call LinkGAN. (1) The latent-pixel linkage is applicable to either a
fixed region (\textit{i.e.}, same for all instances) or a particular semantic
category (i.e., varying across instances), like the sky. (2) Two or multiple
regions can be independently linked to different latent axes, which further
supports joint control. (3) Our regularizer can improve the spatial
controllability of both 2D and 3D-aware GAN models, barely sacrificing the
synthesis performance. (4) The models trained with our regularizer are
compatible with GAN inversion techniques and maintain editability on real
images.
- Abstract(参考訳): この研究はganトレーニングのための使いやすい正規化子を提供しており、潜在空間の軸を合成画像内のピクセルの集合に明示的にリンクするのに役立つ。
このような接続を確立することでgan生成のより便利なローカル制御が容易になり、潜在コードを部分的に再サンプリングするだけで、ユーザーは空間内でのみ画像内容を変更することができる。
実験の結果,LinkGANと呼ばれる正則化器の4つの魅力特性が確認された。
1) 潜在画素連鎖は、固定領域(すべてのインスタンスで同じ)か、空のような特定の意味圏(インスタンス間で変化する)のいずれかに適用できる。
2) 2領域または複数の領域は異なる潜伏軸と独立にリンクでき、さらに関節制御をサポートする。
3) 正規化器は2次元モデルと3次元モデルの両方の空間制御性を向上し, 合成性能をほとんど損なわない。
(4)正規化器で訓練されたモデルはganインバージョン技術と互換性があり,実画像の編集性が維持できる。
関連論文リスト
- In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Entity-Level Text-Guided Image Manipulation [70.81648416508867]
実世界の実体レベルにおけるテキスト誘導画像操作の新しい課題(eL-TGIM)について検討する。
本稿では,実世界の画像のセマンティック・マニピュレーション(Semantic Manipulation)を形成する,セマンニ(Semani)と呼ばれるエレガントなフレームワークを提案する。
セマンティクスアライメントフェーズでは、セマンティクスアライメントモジュールを使用して、操作対象のエンティティ関連領域を特定する。
画像操作フェーズでは、SeManiは生成モデルを採用し、エンティティ非関連領域に条件付された新しい画像とターゲットテキスト記述を合成する。
論文 参考訳(メタデータ) (2023-02-22T13:56:23Z) - Semantic 3D-aware Portrait Synthesis and Manipulation Based on
Compositional Neural Radiance Field [55.431697263581626]
セマンティックな3次元画像合成と操作のための合成ニューラルネットワーク場(CNeRF)を提案する。
CNeRFは、イメージを意味領域に分割し、各領域の独立した神経放射場を学び、最終的にそれらを融合し、完全な画像をレンダリングする。
最先端の3D-Aware GAN法と比較して,我々は高品質な3D一貫性合成を維持しつつ,きめ細かな意味領域操作を可能にする。
論文 参考訳(メタデータ) (2023-02-03T07:17:46Z) - 3D GAN Inversion with Pose Optimization [26.140281977885376]
本稿では,カメラ視点と潜時符号を同時に推論し,マルチビューで一貫したセマンティック画像編集を可能にする一般化可能な3D GANインバージョン手法を提案する。
画像の再構成と編集を定量的かつ質的に行い、さらに2D GANベースの編集と比較した。
論文 参考訳(メタデータ) (2022-10-13T19:06:58Z) - RSINet: Inpainting Remotely Sensed Images Using Triple GAN Framework [13.613245876782367]
本稿では,エッジ,色,テクスチャなどの画像の各側面に個別に焦点をあてる新しい塗装法を提案する。
個々のGANには、スペクトルと空間的特徴を明示的に抽出するアテンション機構も組み込まれている。
キャンバス上の2つのよく知られたリモートセンシングデータセット、Open Cities AIとEarthで、当社のモデルと過去の技術モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-12T05:19:37Z) - SemanticStyleGAN: Learning Compositional Generative Priors for
Controllable Image Synthesis and Editing [35.02841064647306]
StyleGANは、画像合成と編集の下流タスクに有望な事前モデルを提供する。
本稿では,ジェネレータが局所的な意味部分を個別にモデル化し,構成的に画像を合成するように訓練されるSemanticStyleGANを提案する。
論文 参考訳(メタデータ) (2021-12-04T04:17:11Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Low-Rank Subspaces in GANs [101.48350547067628]
この研究は、GAN生成をより正確に制御できる低ランクな部分空間を導入している。
LowRankGAN は属性多様体の低次元表現を見つけることができる。
さまざまなデータセットでトレーニングされた最先端のGANモデル(StyleGAN2やBigGANなど)の実験は、私たちのLowRankGANの有効性を示しています。
論文 参考訳(メタデータ) (2021-06-08T16:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。