論文の概要: StackGAN: Facial Image Generation Optimizations
- arxiv url: http://arxiv.org/abs/2108.13290v1
- Date: Mon, 30 Aug 2021 15:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 16:59:45.020374
- Title: StackGAN: Facial Image Generation Optimizations
- Title(参考訳): StackGAN: 顔画像生成最適化
- Authors: Badr Belhiti, Justin Milushev, Avinash Gupta, John Breedis, Johnson
Dinh, Jesse Pisel, and Michael Pyrcz
- Abstract要約: 現在の最先端のフォトリアリスティック・ジェネレータは計算コストが高く、不安定な訓練過程を伴い、高次元空間で異なる実空間と合成分布を持つ。
そこで我々は,条件付きジェネレータを組み込んだStackGANアーキテクチャの変種を提案する。
我々のモデルはCelebA顔画像データセットを用いて訓練され、エッジ画像のFr'echet Inception Distance(FID)スコア73、合成エッジ画像のグレースケール画像のスコア59を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art photorealistic generators are computationally
expensive, involve unstable training processes, and have real and synthetic
distributions that are dissimilar in higher-dimensional spaces. To solve these
issues, we propose a variant of the StackGAN architecture. The new architecture
incorporates conditional generators to construct an image in many stages. In
our model, we generate grayscale facial images in two different stages: noise
to edges (stage one) and edges to grayscale (stage two). Our model is trained
with the CelebA facial image dataset and achieved a Fr\'echet Inception
Distance (FID) score of 73 for edge images and a score of 59 for grayscale
images generated using the synthetic edge images. Although our model achieved
subpar results in relation to state-of-the-art models, dropout layers could
reduce the overfitting in our conditional mapping. Additionally, since most
images can be broken down into important features, improvements to our model
can generalize to other datasets. Therefore, our model can potentially serve as
a superior alternative to traditional means of generating photorealistic
images.
- Abstract(参考訳): 現在の最先端フォトリアリスティック・ジェネレータは計算コストが高く、不安定なトレーニングプロセスが伴い、高次元空間で異なる実分布と合成分布を持つ。
これらの問題を解決するために,StackGANアーキテクチャの変種を提案する。
新しいアーキテクチャには条件付きジェネレータが組み込まれ、多くの段階で画像を構築する。
モデルでは,エッジに対するノイズ(ステージ1)とグレースケールへのエッジ(ステージ2)の2つの異なるステージにおいて,グレースケールな顔画像を生成する。
このモデルはceleba顔画像データセットを用いて訓練され、エッジ画像のfr\'echetインセプション距離(fid)スコア73と、合成エッジ画像を用いて生成されたグレースケール画像のスコア59を達成した。
我々のモデルでは, 最先端モデルとの関係でサブパー結果を得たが, ドロップアウト層は条件付きマッピングの過度な適合を低減できた。
さらに、ほとんどのイメージは重要な機能に分解できるため、モデルの改善は他のデータセットに一般化することができます。
したがって,本モデルは,従来のフォトリアリスティック画像生成手法よりも優れた代替手段として機能する可能性がある。
関連論文リスト
- Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Face sketch to photo translation using generative adversarial networks [1.0312968200748118]
我々は、訓練済みの顔画像生成モデルを用いて、高品質な自然顔写真を合成する。
入力スケッチから抽出した顔の特徴を、顔生成モデルの潜在空間のベクトルにマッピングするネットワークを訓練する。
提案モデルでは,SSIM指数で0.655,97.59%のランク-1顔認識率が得られた。
論文 参考訳(メタデータ) (2021-10-23T20:01:20Z) - Aggregated Contextual Transformations for High-Resolution Image
Inpainting [57.241749273816374]
画像の高精細化のための拡張GANモデルAggregated Contextual-Transformation GAN (AOT-GAN)を提案する。
そこで,提案するAOTブロックの複数のレイヤを積み重ねることで,AOT-GANのジェネレータを構築する。
テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。
論文 参考訳(メタデータ) (2021-04-03T15:50:17Z) - OSTeC: One-Shot Texture Completion [86.23018402732748]
ワンショット3D顔テクスチャ補完のための教師なしアプローチを提案する。
提案手法では,2次元フェースジェネレータで回転画像を再構成することにより,入力画像を3次元で回転させ,見えない領域を埋め込む。
完成したテクスチャーをジェネレーターに投影することで、ターゲットイメージを先取りします。
論文 参考訳(メタデータ) (2020-12-30T23:53:26Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。