論文の概要: Album cover art image generation with Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2212.04844v1
- Date: Fri, 9 Dec 2022 13:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:11:22.448174
- Title: Album cover art image generation with Generative Adversarial Networks
- Title(参考訳): Generative Adversarial Networks を用いたアルバムカバーアート画像生成
- Authors: Felipe Perez Stoppa, Ester Vida\~na-Vila, Joan Navarro
- Abstract要約: この論文は、ニューラルネットワークの基本をカバーし、GANの特定の側面まで機能する。
目的は、GANがアルバムアートカバーを作成できるかどうか、ジャンル別に調整できるかどうかを確認することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Adversarial Networks (GANs) were introduced by Goodfellow in 2014,
and since then have become popular for constructing generative artificial
intelligence models. However, the drawbacks of such networks are numerous, like
their longer training times, their sensitivity to hyperparameter tuning,
several types of loss and optimization functions and other difficulties like
mode collapse. Current applications of GANs include generating photo-realistic
human faces, animals and objects. However, I wanted to explore the artistic
ability of GANs in more detail, by using existing models and learning from
them. This dissertation covers the basics of neural networks and works its way
up to the particular aspects of GANs, together with experimentation and
modification of existing available models, from least complex to most. The
intention is to see if state of the art GANs (specifically StyleGAN2) can
generate album art covers and if it is possible to tailor them by genre. This
was attempted by first familiarizing myself with 3 existing GANs architectures,
including the state of the art StyleGAN2. The StyleGAN2 code was used to train
a model with a dataset containing 80K album cover images, then used to style
images by picking curated images and mixing their styles.
- Abstract(参考訳): GAN(Generative Adversarial Networks)は2014年にGoodfellowによって導入され、それ以来、生成人工知能モデルの構築に人気がある。
しかし、そのようなネットワークの欠点は、長いトレーニング時間、ハイパーパラメータチューニングに対する感度、いくつかのタイプの損失と最適化機能、モード崩壊などの困難さなど、多岐にわたる。
GANの現在の用途には、フォトリアリスティックな人間の顔、動物、オブジェクトの生成が含まれる。
しかし,既存のモデルを用いて学習することで,GANの芸術的能力をより詳しく探求したかった。
この論文は、ニューラルネットワークの基本をカバーし、GANの特定の側面まで、最小限の複雑さから最も多くまで、既存のモデルの実験と修正と共に機能する。
この目的は、GAN(特にStyleGAN2)がアルバムアートカバーを作成できるかどうか、ジャンル別に調整できるかどうかを確認することである。
これは、アートであるStyleGAN2の状況を含む3つの既存のGANアーキテクチャに初めて慣れることによって試みられた。
StyleGAN2コードは、80Kアルバムのカバーイメージを含むデータセットでモデルをトレーニングするために使用され、その後、キュレートされたイメージを選択してスタイルを混ぜることで、イメージをスタイル化するために使用された。
関連論文リスト
- Style-Extracting Diffusion Models for Semi-Supervised Histopathology Segmentation [6.479933058008389]
スタイル抽出拡散モデルでは、下流タスクに有用な特徴のない画像を生成する。
本研究では,概念実証として自然画像データセット上での手法の有効性を示す。
患者間でのセグメンテーション結果の改善と性能変動の低減を図り, 得られた画像の付加価値を検証する。
論文 参考訳(メタデータ) (2024-03-21T14:36:59Z) - Diffusion idea exploration for art generation [0.10152838128195467]
拡散モデルは最近、クロスモーダルデータを用いた画像生成タスクにおいて、他の生成モデルよりも優れています。
このタスクの新たな画像生成の初期実験は、有望な質的結果を示した。
論文 参考訳(メタデータ) (2023-07-11T02:35:26Z) - 3DAvatarGAN: Bridging Domains for Personalized Editable Avatars [75.31960120109106]
3D-GANは、一貫した構造を持つ大規模データセットのトレーニングにより、幾何学とテクスチャを合成する。
本稿では,ソースドメインが事前訓練された3D-GANであり,ターゲットドメインが2D-GANである適応フレームワークを提案する。
本稿では,芸術領域の誇張された幾何学をモデル化するための変形に基づく手法について述べる。
論文 参考訳(メタデータ) (2023-01-06T19:58:47Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z) - 3DMM-RF: Convolutional Radiance Fields for 3D Face Modeling [111.98096975078158]
本稿では,1つのパスを1つのパスで合成し,必要なニューラルネットワークのレンダリングサンプルのみを合成するスタイルベースの生成ネットワークを提案する。
このモデルは、任意のポーズと照明の顔画像に正確に適合し、顔の特徴を抽出し、制御可能な条件下で顔を再レンダリングするために使用できることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:28:45Z) - A Survey on Leveraging Pre-trained Generative Adversarial Networks for
Image Editing and Restoration [72.17890189820665]
GAN(Generative Adversarial Network)は、単純だが効果的なトレーニング機構と優れた画像生成品質により、大きな注目を集めている。
近年のGANモデルは生成した画像と実際の画像とのギャップを大幅に狭めている。
近年の多くの研究は、未学習のGANモデルと学習されたGAN先行空間を生かして、事前学習されたGANモデルを活用することへの関心が高まっている。
論文 参考訳(メタデータ) (2022-07-21T05:05:58Z) - Weakly Supervised High-Fidelity Clothing Model Generation [67.32235668920192]
本稿では,このシナリオに対応するために,DGP (Deep Generative Projection) と呼ばれる安価でスケーラブルな弱教師付き手法を提案する。
衣服と身体の粗いアライメントをStyleGAN空間に投影することで、フォトリアリスティックな着用結果が得られることを示す。
論文 参考訳(メタデータ) (2021-12-14T07:15:15Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - MobileStyleGAN: A Lightweight Convolutional Neural Network for
High-Fidelity Image Synthesis [0.0]
スタイルベース生成モデルの性能最適化に着目する。
パラメータがx3.5少ないMobileStyleGANアーキテクチャを導入し、StyleGAN2よりも計算量がx9.5少ない。
論文 参考訳(メタデータ) (2021-04-10T13:46:49Z) - Hijack-GAN: Unintended-Use of Pretrained, Black-Box GANs [57.90008929377144]
現状のGANモデルは、無条件画像生成以外の様々な用途に利用できることを示す。
我々は、画像生成プロセスの制御も可能な反復的なスキームによりこれを達成した。
論文 参考訳(メタデータ) (2020-11-28T11:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。