論文の概要: NoisyTwins: Class-Consistent and Diverse Image Generation through
StyleGANs
- arxiv url: http://arxiv.org/abs/2304.05866v1
- Date: Wed, 12 Apr 2023 13:56:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:53:07.957361
- Title: NoisyTwins: Class-Consistent and Diverse Image Generation through
StyleGANs
- Title(参考訳): NoisyTwins:StyleGANによるクラス一貫性とディバース画像生成
- Authors: Harsh Rangwani, Lavish Bansal, Kartik Sharma, Tejan Karmali, Varun
Jampani, R. Venkatesh Babu
- Abstract要約: 我々は NoisyTwins を導入し、$mathcalW$ 空間の自己超越性に基づいてラテントをデコレーションする。
我々は,ImageNet-LTとiNaturalist 2019の大規模実世界の長期データセットに対するアプローチの有効性を示す。
- 参考スコア(独自算出の注目度): 48.47153565765762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: StyleGANs are at the forefront of controllable image generation as they
produce a latent space that is semantically disentangled, making it suitable
for image editing and manipulation. However, the performance of StyleGANs
severely degrades when trained via class-conditioning on large-scale
long-tailed datasets. We find that one reason for degradation is the collapse
of latents for each class in the $\mathcal{W}$ latent space. With NoisyTwins,
we first introduce an effective and inexpensive augmentation strategy for class
embeddings, which then decorrelates the latents based on self-supervision in
the $\mathcal{W}$ space. This decorrelation mitigates collapse, ensuring that
our method preserves intra-class diversity with class-consistency in image
generation. We show the effectiveness of our approach on large-scale real-world
long-tailed datasets of ImageNet-LT and iNaturalist 2019, where our method
outperforms other methods by $\sim 19\%$ on FID, establishing a new
state-of-the-art.
- Abstract(参考訳): StyleGANは、セマンティックに切り離された潜在空間を生成するため、制御可能な画像生成の最前線にあり、画像編集や操作に適している。
しかし、大規模なロングテールデータセット上でクラスコンディショニングによってトレーニングされた場合、スタイルガンのパフォーマンスは著しく低下する。
分解の理由の一つは、$\mathcal{w}$ の潜在空間における各クラスに対する潜在項の崩壊である。
NoisyTwins では、まずクラス埋め込みに対して有効で安価な拡張戦略を導入し、次に $\mathcal{W}$ 空間における自己スーパービジョンに基づく潜在変数をデコレーションする。
このデコリレーションは崩壊を緩和し、画像生成におけるクラス一貫性とクラス内多様性を確実に維持する。
本稿では,imagenet-lt と inaturalist 2019 の大規模実世界のロングテールデータセットに対する提案手法の有効性を示す。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Urban-StyleGAN: Learning to Generate and Manipulate Images of Urban
Scenes [38.41863868729436]
本稿では,都市景観の生成と操作のための新しい枠組みであるUrban-StyleGANを提案する。
都市景観は人間の顔よりも複雑であるため,SSGの直接的な適用は,結果の低下につながることが判明した。
本手法では,ジェネレータの$mathcalS$-spaceに非教師付き潜伏探索アルゴリズムを適用し,画像内容の制御において従来の$mathcalW+$-spaceよりも効率的であることを示す。
論文 参考訳(メタデータ) (2023-05-16T16:54:48Z) - DGSS : Domain Generalized Semantic Segmentation using Iterative Style
Mining and Latent Representation Alignment [38.05196030226661]
現在の最先端技術 (SoTA) では、領域ギャップを埋める異なるメカニズムが提案されているが、低い照明条件下では性能が良くない。
本稿では、まず、スタイリングされた画像とソース画像のドメインギャップを最大化する対角的スタイルを識別する2段階のフレームワークを提案する。
そこで我々は,異なるスタイルの同一物体を混合して新たな訓練画像を構築するスタイル混合機構を提案する。
論文 参考訳(メタデータ) (2022-02-26T13:54:57Z) - Cluster-guided Image Synthesis with Unconditional Models [41.89334167530054]
本研究は、教師なし方式でよく訓練されたGANを活用することにより、制御可能な画像生成に焦点を当てる。
クラスタ割り当てを条件付けすることで、提案手法は生成された画像の意味クラスを制御することができる。
顔(CelebA-HQとFFHQ)、動物(Imagenet)、オブジェクト(LSUN)に対するアプローチの有効性を,異なる事前学習生成モデルを用いて示す。
論文 参考訳(メタデータ) (2021-12-24T02:18:34Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - Diverse Image Generation via Self-Conditioned GANs [56.91974064348137]
手動でアノテートされたクラスラベルを使わずに、クラス条件付きGANモデルを訓練する。
代わりに、我々のモデルは、識別器の特徴空間におけるクラスタリングから自動的に派生したラベルに条件付きである。
我々のクラスタリングステップは、自動的に多様なモードを発見し、それらをカバーするためにジェネレータを明示的に必要とします。
論文 参考訳(メタデータ) (2020-06-18T17:56:03Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。