論文の概要: Urban-StyleGAN: Learning to Generate and Manipulate Images of Urban
Scenes
- arxiv url: http://arxiv.org/abs/2305.09602v1
- Date: Tue, 16 May 2023 16:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 14:02:03.161978
- Title: Urban-StyleGAN: Learning to Generate and Manipulate Images of Urban
Scenes
- Title(参考訳): Urban-StyleGAN: 都市シーンの画像生成と操作の学習
- Authors: George Eskandar, Youssef Farag, Tarun Yenamandra, Daniel Cremers,
Karim Guirguis, Bin Yang
- Abstract要約: 本稿では,都市景観の生成と操作のための新しい枠組みであるUrban-StyleGANを提案する。
都市景観は人間の顔よりも複雑であるため,SSGの直接的な適用は,結果の低下につながることが判明した。
本手法では,ジェネレータの$mathcalS$-spaceに非教師付き潜伏探索アルゴリズムを適用し,画像内容の制御において従来の$mathcalW+$-spaceよりも効率的であることを示す。
- 参考スコア(独自算出の注目度): 38.41863868729436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A promise of Generative Adversarial Networks (GANs) is to provide cheap
photorealistic data for training and validating AI models in autonomous
driving. Despite their huge success, their performance on complex images
featuring multiple objects is understudied. While some frameworks produce
high-quality street scenes with little to no control over the image content,
others offer more control at the expense of high-quality generation. A common
limitation of both approaches is the use of global latent codes for the whole
image, which hinders the learning of independent object distributions.
Motivated by SemanticStyleGAN (SSG), a recent work on latent space
disentanglement in human face generation, we propose a novel framework,
Urban-StyleGAN, for urban scene generation and manipulation. We find that a
straightforward application of SSG leads to poor results because urban scenes
are more complex than human faces. To provide a more compact yet disentangled
latent representation, we develop a class grouping strategy wherein individual
classes are grouped into super-classes. Moreover, we employ an unsupervised
latent exploration algorithm in the $\mathcal{S}$-space of the generator and
show that it is more efficient than the conventional $\mathcal{W}^{+}$-space in
controlling the image content. Results on the Cityscapes and Mapillary datasets
show the proposed approach achieves significantly more controllability and
improved image quality than previous approaches on urban scenes and is on par
with general-purpose non-controllable generative models (like StyleGAN2) in
terms of quality.
- Abstract(参考訳): GAN(Generative Adversarial Networks)の約束は、自律運転におけるAIモデルのトレーニングと検証のための安価なフォトリアリスティックデータを提供することである。
その大きな成功にもかかわらず、複数のオブジェクトを特徴とする複雑なイメージのパフォーマンスは未検討である。
一部のフレームワークは高品質なストリートシーンを制作し、画像の内容の制御はほとんど、あるいは全く行わないが、高品質な世代を犠牲にして、よりコントロールを提供する。
両方のアプローチの共通する制限は、全体像に対するグローバル潜在符号の使用であり、独立したオブジェクト分布の学習を妨げる。
人間の顔生成における潜在空間のゆがみに関する最近の研究であるSemanticStyleGAN (SSG) に動機付け, 都市景観の生成と操作のための新しい枠組みであるUrban-StyleGANを提案する。
都市景観は人間の顔よりも複雑であるため,SSGの直接的な適用は結果の低下につながる。
よりコンパクトで不連続な潜在表現を提供するため、個々のクラスがスーパークラスにグループ化されるクラスグループ化戦略を開発する。
さらに,生成器の$\mathcal{s}$-spaceにおいて教師なし潜伏探索アルゴリズムを用い,画像コンテンツの制御において従来の$\mathcal{w}^{+}$-spaceよりも効率的であることを示す。
Cityscapes と Mapillary のデータセットから,提案手法は都市景観における従来の手法に比べて,制御可能性の向上と画質向上を実現し,品質面で汎用的な非制御可能生成モデル(StyleGAN2 など)と同等であることが示された。
関連論文リスト
- NoisyTwins: Class-Consistent and Diverse Image Generation through
StyleGANs [48.47153565765762]
我々は NoisyTwins を導入し、$mathcalW$ 空間の自己超越性に基づいてラテントをデコレーションする。
我々は,ImageNet-LTとiNaturalist 2019の大規模実世界の長期データセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-04-12T13:56:45Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Cluster-guided Image Synthesis with Unconditional Models [41.89334167530054]
本研究は、教師なし方式でよく訓練されたGANを活用することにより、制御可能な画像生成に焦点を当てる。
クラスタ割り当てを条件付けすることで、提案手法は生成された画像の意味クラスを制御することができる。
顔(CelebA-HQとFFHQ)、動物(Imagenet)、オブジェクト(LSUN)に対するアプローチの有効性を,異なる事前学習生成モデルを用いて示す。
論文 参考訳(メタデータ) (2021-12-24T02:18:34Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Unsupervised Image Generation with Infinite Generative Adversarial
Networks [24.41144953504398]
無限条件GANまたはMIC-GANを混合した非教師なし非パラメトリック手法を提案する。
MIC-GANは潜伏空間の構造化やモード崩壊の回避に有効であることを示す。
論文 参考訳(メタデータ) (2021-08-18T05:03:19Z) - Diamond in the rough: Improving image realism by traversing the GAN
latent space [0.0]
改良されたフォトリアリズムと整合する潜在空間の方向を求める教師なし手法を提案する。
提案手法は,生成画像の忠実度を高めつつ,ネットワークを不変にしておく。
私たちは、イメージ空間の最小の変化をもたらす潜在空間の方向を見つけるために、単純なジェネレータインバージョンを使用します。
論文 参考訳(メタデータ) (2021-04-12T14:45:29Z) - Aggregated Contextual Transformations for High-Resolution Image
Inpainting [57.241749273816374]
画像の高精細化のための拡張GANモデルAggregated Contextual-Transformation GAN (AOT-GAN)を提案する。
そこで,提案するAOTブロックの複数のレイヤを積み重ねることで,AOT-GANのジェネレータを構築する。
テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。
論文 参考訳(メタデータ) (2021-04-03T15:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。