論文の概要: StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets
- arxiv url: http://arxiv.org/abs/2202.00273v1
- Date: Tue, 1 Feb 2022 08:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 13:55:40.657814
- Title: StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets
- Title(参考訳): StyleGAN-XL:StyleGANの大規模分散データセットへのスケーリング
- Authors: Axel Sauer, Katja Schwarz, Andreas Geiger
- Abstract要約: StyleGANは、画像の品質と可制御性に関する生成モデリングのための新しい標準を設定する。
最後のモデルであるStyleGAN-XLは、大規模な画像合成に新たな最先端を設定でき、そのようなデータセットスケールで10242ドルの解像度で画像を生成できる最初のモデルです。
- 参考スコア(独自算出の注目度): 35.11248114153497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer graphics has experienced a recent surge of data-centric approaches
for photorealistic and controllable content creation. StyleGAN in particular
sets new standards for generative modeling regarding image quality and
controllability. However, StyleGAN's performance severely degrades on large
unstructured datasets such as ImageNet. StyleGAN was designed for
controllability; hence, prior works suspect its restrictive design to be
unsuitable for diverse datasets. In contrast, we find the main limiting factor
to be the current training strategy. Following the recently introduced
Projected GAN paradigm, we leverage powerful neural network priors and a
progressive growing strategy to successfully train the latest StyleGAN3
generator on ImageNet. Our final model, StyleGAN-XL, sets a new
state-of-the-art on large-scale image synthesis and is the first to generate
images at a resolution of $1024^2$ at such a dataset scale. We demonstrate that
this model can invert and edit images beyond the narrow domain of portraits or
specific object classes.
- Abstract(参考訳): コンピュータグラフィックスは、フォトリアリスティックで制御可能なコンテンツ作成のためのデータ中心のアプローチが最近急増している。
styleganは特に、画像品質と制御可能性に関する生成モデリングの新しい標準を設定している。
しかし、styleganのパフォーマンスはimagenetのような大きな非構造化データセットで著しく低下する。
StyleGANは制御性のために設計されたため、以前の研究は制限的な設計が多様なデータセットに適さないと推測していた。
対照的に、私たちは現在のトレーニング戦略の主な制限要因を見つけます。
最近導入されたProjected GANパラダイムに従い、強力なニューラルネットワークプリエントと進歩的な成長戦略を活用して、ImageNet上で最新のStyleGAN3ジェネレータをトレーニングしました。
最後のモデルであるStyleGAN-XLは、大規模な画像合成に新たな最先端を設定でき、そのようなデータセットスケールで1024^2$の解像度で画像を生成できる最初のモデルです。
このモデルは、ポートレートの狭い領域や特定のオブジェクトクラスを越えて、画像を反転および編集できることを実証する。
関連論文リスト
- GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Customize StyleGAN with One Hand Sketch [0.0]
本稿では,単一のユーザスケッチでスタイルGAN画像を制御するフレームワークを提案する。
我々は、エネルギーベース学習により、事前学習したStyleGANモデルの潜在空間における条件分布を学習する。
我々のモデルは、入力スケッチにセマンティックに整合したマルチモーダル画像を生成することができる。
論文 参考訳(メタデータ) (2023-10-29T09:32:33Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - High-Resolution GAN Inversion for Degraded Images in Large Diverse
Datasets [39.21692649763314]
本稿では,StyleGAN-XLの強力な生成能力を利用した新しいGANインバージョンフレームワークを提案する。
StyleGAN-XLによる逆問題を軽減するために、Clustering & Regularize Inversion (CRI)を提案する。
我々は、複雑な自然画像の複数の復元作業(例えば、塗装、着色、超解像)において、CRI方式を検証し、定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2023-02-07T11:24:11Z) - Federated Domain Generalization for Image Recognition via Cross-Client
Style Transfer [60.70102634957392]
ドメイン一般化(Domain Generalization, DG)は、画像認識においてホットなトピックであり、目に見えないドメインでうまく機能する一般的なモデルを訓練することを目的としている。
本稿では,データサンプルを交換することなく,クロスクライアント型転送(CCST)による画像認識のための新しい領域一般化手法を提案する。
本手法は2つのDGベンチマーク(PACS, OfficeHome)とFL設定における大規模医用画像データセット(Camelyon17)において,最近のSOTA DG法より優れている。
論文 参考訳(メタデータ) (2022-10-03T13:15:55Z) - Self-Distilled StyleGAN: Towards Generation from Internet Photos [47.28014076401117]
本稿では,インターネットから収集した未処理画像に対して,StyleGANをどのように適応させるかを示す。
本稿では,2つの主成分からなるスタイルGANを用いた自己蒸留法を提案する。
提案手法は,データの多様性の損失を最小限に抑えつつ,高品質な画像の生成を可能にする。
論文 参考訳(メタデータ) (2022-02-24T17:16:47Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - MobileStyleGAN: A Lightweight Convolutional Neural Network for
High-Fidelity Image Synthesis [0.0]
スタイルベース生成モデルの性能最適化に着目する。
パラメータがx3.5少ないMobileStyleGANアーキテクチャを導入し、StyleGAN2よりも計算量がx9.5少ない。
論文 参考訳(メタデータ) (2021-04-10T13:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。