論文の概要: Styleformer: Transformer based Generative Adversarial Networks with
Style Vector
- arxiv url: http://arxiv.org/abs/2106.07023v1
- Date: Sun, 13 Jun 2021 15:30:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 09:23:12.630399
- Title: Styleformer: Transformer based Generative Adversarial Networks with
Style Vector
- Title(参考訳): Styleformer: スタイルベクトル付きトランスフォーマーベースの生成対向ネットワーク
- Authors: Jeeseung Park, Younggeun Kim
- Abstract要約: StyleformerはGANアーキテクチャ用のスタイルベースのジェネレータであるが、畳み込みのないトランスフォーマーベースのジェネレータである。
コンボリューション演算が画像のグローバルな特徴を捉えるのが難しいという欠点を克服して、トランスフォーマーが高品質な画像を生成する方法を示す。
- 参考スコア(独自算出の注目度): 5.025654873456756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Styleformer, which is a style-based generator for GAN
architecture, but a convolution-free transformer-based generator. In our paper,
we explain how a transformer can generate high-quality images, overcoming the
disadvantage that convolution operations are difficult to capture global
features in an image. Furthermore, we change the demodulation of StyleGAN2 and
modify the existing transformer structure (e.g., residual connection, layer
normalization) to create a strong style-based generator with a convolution-free
structure. We also make Styleformer lighter by applying Linformer, enabling
Styleformer to generate higher resolution images and result in improvements in
terms of speed and memory. We experiment with the low-resolution image dataset
such as CIFAR-10, as well as the high-resolution image dataset like
LSUN-church. Styleformer records FID 2.82 and IS 9.94 on CIFAR-10, a benchmark
dataset, which is comparable performance to the current state-of-the-art and
outperforms all GAN-based generative models, including StyleGAN2-ADA with fewer
parameters on the unconditional setting. We also both achieve new
state-of-the-art with FID 20.11, IS 10.16, and FID 3.66, respectively on STL-10
and CelebA. We release our code at
https://github.com/Jeeseung-Park/Styleformer.
- Abstract(参考訳): 我々はganアーキテクチャのためのスタイルベースジェネレータであるが、畳み込みフリーのトランスフォーマレータであるstyleformerを提案する。
本稿では,トランスフォーマーが高品質な画像を生成する方法を説明し,畳み込み操作が画像のグローバルな特徴を捉えにくいという欠点を克服する。
さらに、StyleGAN2の復調を変更し、既存のトランスフォーマー構造(残留接続、層正規化など)を変更して、畳み込みのない構造を持つ強力なスタイルベースジェネレータを作成する。
また、Linformerを適用してStyleformerを軽量化することで、Styleformerは高解像度の画像を生成し、スピードとメモリの面で改善する。
CIFAR-10のような低解像度画像データセットとLSUN-churchのような高解像度画像データセットを実験した。
Styleformer は CIFAR-10 上で FID 2.82 と IS 9.94 を記録しており、これは現在の最先端モデルに匹敵するパフォーマンスであり、非条件設定でより少ないパラメータを持つ StyleGAN2-ADA を含む全ての GAN 生成モデルより優れている。
また, STL-10 と CelebA でそれぞれ FID 20.11 , IS 10.16 , FID 3.66 を新たに実現した。
コードはhttps://github.com/jeeseung-park/styleformerでリリースします。
関連論文リスト
- Latents2Semantics: Leveraging the Latent Space of Generative Models for
Localized Style Manipulation of Face Images [25.82631308991067]
顔画像中の関心領域のスタイル属性の局所的編集を容易にする生成オートエンコーダモデルであるLatents2Semantics Autoencoder (L2SAE)を紹介する。
L2SAEは、符号化された画像の構造とスタイル情報に対する別個の潜在表現を学習し、選択されたROIの構造保存スタイル編集を可能にする。
複数のデータセットからサンプリングされたテスト画像を用いて、選択的なスタイル編集やスワップなど、複数のアプリケーションに対して、定性的かつ定量的な結果を提供する。
論文 参考訳(メタデータ) (2023-12-22T20:06:53Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - StyleNAT: Giving Each Head a New Perspective [71.84791905122052]
高い効率と柔軟性を備えた高品質な画像生成をターゲットとした,StyleNATと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
私たちのモデルの中核となるのは、ローカルおよびグローバルな情報を捉えるために注意を分割する、慎重に設計されたフレームワークです。
StyleNATはFFHQ-256で新たなSOTA FIDスコアを2.046で獲得し、StyleGAN-XLやHITやStyleSwinといったトランスフォーマーのような畳み込みモデルで先行芸術を圧倒した。
論文 参考訳(メタデータ) (2022-11-10T18:55:48Z) - Hierarchical Semantic Regularization of Latent Spaces in StyleGANs [53.98170188547775]
本稿では,階層型意味正規化器(HSR)を提案する。これは,生成元が学習した階層的表現と,事前学習したネットワークが大量のデータに基づいて学習する強力な特徴とを一致させる。
HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。
論文 参考訳(メタデータ) (2022-08-07T16:23:33Z) - CogView2: Faster and Better Text-to-Image Generation via Hierarchical
Transformers [17.757983821569994]
新しいテキスト・ツー・イメージシステムであるCogView2は、最先端のDALL-E-2と比較して非常に競争力のある生成である。
論文 参考訳(メタデータ) (2022-04-28T15:51:11Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - StyleSwin: Transformer-based GAN for High-resolution Image Generation [28.703687511694305]
我々は,高分解能画像合成のための生成的対向ネットワークを構築するために,純粋なトランスフォーマーを用いて探究する。
提案されたジェネレータはスタイルベースのアーキテクチャでSwingトランスフォーマーを採用する。
ウィンドウベースの変圧器で失われた絶対位置の知識を提供することは、生成品質に大きな恩恵をもたらすことを示す。
論文 参考訳(メタデータ) (2021-12-20T18:59:51Z) - MobileStyleGAN: A Lightweight Convolutional Neural Network for
High-Fidelity Image Synthesis [0.0]
スタイルベース生成モデルの性能最適化に着目する。
パラメータがx3.5少ないMobileStyleGANアーキテクチャを導入し、StyleGAN2よりも計算量がx9.5少ない。
論文 参考訳(メタデータ) (2021-04-10T13:46:49Z) - TransGAN: Two Transformers Can Make One Strong GAN [111.07699201175919]
我々は、純粋なトランスフォーマーベースのアーキテクチャのみを用いて、完全に畳み込みのないGANテキストを構築できる最初のパイロット研究を行う。
バニラGANアーキテクチャはtextbfTransGANと呼ばれ、メモリフレンドリーなトランスフォーマーベースのジェネレータで構成されています。
当社の最高のアーキテクチャは、コンボリューションバックボーンに基づく最新のGANと比較して非常に競争力のあるパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-02-14T05:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。