論文の概要: Spatial Latent Representations in Generative Adversarial Networks for
Image Generation
- arxiv url: http://arxiv.org/abs/2303.14552v1
- Date: Sat, 25 Mar 2023 20:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:08:12.902074
- Title: Spatial Latent Representations in Generative Adversarial Networks for
Image Generation
- Title(参考訳): 画像生成のための生成逆数ネットワークにおける空間潜在表現
- Authors: Maciej Sypetkowski
- Abstract要約: StyleGAN2 に対して空間潜在空間の族を定義する。
我々の空間は画像操作や意味情報のエンコードに有効であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the majority of GAN architectures, the latent space is defined as a set of
vectors of given dimensionality. Such representations are not easily
interpretable and do not capture spatial information of image content directly.
In this work, we define a family of spatial latent spaces for StyleGAN2,
capable of capturing more details and representing images that are
out-of-sample in terms of the number and arrangement of object parts, such as
an image of multiple faces or a face with more than two eyes. We propose a
method for encoding images into our spaces, together with an attribute model
capable of performing attribute editing in these spaces. We show that our
spaces are effective for image manipulation and encode semantic information
well. Our approach can be used on pre-trained generator models, and attribute
edition can be done using pre-generated direction vectors making the barrier to
entry for experimentation and use extremely low. We propose a regularization
method for optimizing latent representations, which equalizes distributions of
parts of latent spaces, making representations much closer to generated ones.
We use it for encoding images into spatial spaces to obtain significant
improvement in quality while keeping semantics and ability to use our attribute
model for edition purposes. In total, using our methods gives encoding quality
boost even as high as 30% in terms of LPIPS score comparing to standard
methods, while keeping semantics. Additionally, we propose a StyleGAN2 training
procedure on our spatial latent spaces, together with a custom spatial latent
representation distribution to make spatially closer elements in the
representation more dependent on each other than farther elements. Such
approach improves the FID score by 29% on SpaceNet, and is able to generate
consistent images of arbitrary sizes on spatially homogeneous datasets, like
satellite imagery.
- Abstract(参考訳): GANアーキテクチャの大多数では、潜在空間は与えられた次元のベクトルの集合として定義される。
このような表現は容易に解釈できず、画像コンテンツの空間情報を直接キャプチャすることができない。
本研究では,複数の顔の像や2つ以上の目を持つ顔の像などの対象部分の数や配置に関して,より詳細を把握し,サンプル外である画像を表現することのできる,StyleGAN2の空間潜在空間のファミリーを定義する。
本稿では,これらの空間で属性編集が可能な属性モデルとともに,画像の符号化手法を提案する。
我々の空間は画像操作や意味情報のエンコードに有効であることを示す。
提案手法は, 事前学習型ジェネレータモデルに応用でき, 属性版は, 実験への参入障壁と極めて低用量を実現するために, 事前生成方向ベクトルを用いて行うことができる。
本稿では,潜在空間の部分分布を等化し,生成する表現に非常に近い潜在表現を最適化するための正規化手法を提案する。
イメージを空間空間に符号化することで、セマンティクスと属性モデルをエディション目的に使用する能力を維持しながら、品質を大幅に向上させる。
総じて,本手法を用いることで,標準手法と比較してLPIPSスコアが最大30%向上しても,意味を保ちながら符号化品質が向上する。
さらに,我々の空間的潜在空間に対するstylegan2のトレーニング手順と,空間的潜在表現分布を組み合わせることで,表現の空間的近接要素をより遠方要素よりも互いに依存させる手法を提案する。
このアプローチは、SpaceNet上のFIDスコアを29%改善し、衛星画像のような空間的に均質なデータセット上で任意のサイズの一貫した画像を生成することができる。
関連論文リスト
- Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Binary Latent Diffusion [36.70550531181131]
コンパクトで表現力のある画像表現に対して二進ラテント空間を探索できることが示される。
複数のデータセットを用いて条件付きおよび条件なしの画像生成実験を行う。
提案するフレームワークは,遅延階層や多段改良を使わずに,シームレスに1024×1024$の高解像度画像生成に拡張することができる。
論文 参考訳(メタデータ) (2023-04-10T19:03:28Z) - LD-ZNet: A Latent Diffusion Approach for Text-Based Image Segmentation [10.623430999818925]
本稿では,インターネット規模のデータセットに基づいて学習した潜在拡散モデル(LDM)を用いて,実画像とAI画像のセグメンテーションを行う手法を提案する。
自然画像のテキストと画像のセグメンテーションにおいて,標準ベースラインよりも6%向上することを示す。
AI生成画像では、最先端技術と比較して20%近く改善されている。
論文 参考訳(メタデータ) (2023-03-22T06:55:01Z) - High-fidelity GAN Inversion with Padding Space [38.9258619444968]
GAN(Generative Adversarial Network)の反転は、事前訓練されたジェネレータを用いた幅広い画像編集作業を容易にする。
既存の手法では、通常、反転空間としてGANの潜伏空間を用いるが、空間詳細の回復は不十分である。
本稿では, 潜伏空間を空間情報で補うため, ジェネレータのパディング空間を包含することを提案する。
論文 参考訳(メタデータ) (2022-03-21T16:32:12Z) - Low-Rank Subspaces in GANs [101.48350547067628]
この研究は、GAN生成をより正確に制御できる低ランクな部分空間を導入している。
LowRankGAN は属性多様体の低次元表現を見つけることができる。
さまざまなデータセットでトレーニングされた最先端のGANモデル(StyleGAN2やBigGANなど)の実験は、私たちのLowRankGANの有効性を示しています。
論文 参考訳(メタデータ) (2021-06-08T16:16:32Z) - Subspace Representation Learning for Few-shot Image Classification [105.7788602565317]
少数の画像分類タスクに対処するサブスペース表現学習フレームワークを提案する。
画像を表すためにローカルCNN機能空間のサブスペースを利用し、重み付きサブスペース距離(WSD)に従って2つの画像間の類似度を測定します。
論文 参考訳(メタデータ) (2021-05-02T02:29:32Z) - IntroVAC: Introspective Variational Classifiers for Learning
Interpretable Latent Subspaces [6.574517227976925]
IntroVACは、追加ラベルから情報を活用することで、解釈可能な潜在部分空間を学習する。
IntroVACは、画像属性の微調整を可能にする潜在空間における意味のある方向を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-08-03T10:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。