論文の概要: StyleSwin: Transformer-based GAN for High-resolution Image Generation
- arxiv url: http://arxiv.org/abs/2112.10762v1
- Date: Mon, 20 Dec 2021 18:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 17:20:34.084783
- Title: StyleSwin: Transformer-based GAN for High-resolution Image Generation
- Title(参考訳): StyleSwin:高解像度画像生成のためのトランスフォーマーベースGAN
- Authors: Bowen Zhang, Shuyang Gu, Bo Zhang, Jianmin Bao, Dong Chen, Fang Wen,
Yong Wang, Baining Guo
- Abstract要約: 我々は,高分解能画像合成のための生成的対向ネットワークを構築するために,純粋なトランスフォーマーを用いて探究する。
提案されたジェネレータはスタイルベースのアーキテクチャでSwingトランスフォーマーを採用する。
ウィンドウベースの変圧器で失われた絶対位置の知識を提供することは、生成品質に大きな恩恵をもたらすことを示す。
- 参考スコア(独自算出の注目度): 28.703687511694305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the tantalizing success in a broad of vision tasks, transformers have
not yet demonstrated on-par ability as ConvNets in high-resolution image
generative modeling. In this paper, we seek to explore using pure transformers
to build a generative adversarial network for high-resolution image synthesis.
To this end, we believe that local attention is crucial to strike the balance
between computational efficiency and modeling capacity. Hence, the proposed
generator adopts Swin transformer in a style-based architecture. To achieve a
larger receptive field, we propose double attention which simultaneously
leverages the context of the local and the shifted windows, leading to improved
generation quality. Moreover, we show that offering the knowledge of the
absolute position that has been lost in window-based transformers greatly
benefits the generation quality. The proposed StyleSwin is scalable to high
resolutions, with both the coarse geometry and fine structures benefit from the
strong expressivity of transformers. However, blocking artifacts occur during
high-resolution synthesis because performing the local attention in a
block-wise manner may break the spatial coherency. To solve this, we
empirically investigate various solutions, among which we find that employing a
wavelet discriminator to examine the spectral discrepancy effectively
suppresses the artifacts. Extensive experiments show the superiority over prior
transformer-based GANs, especially on high resolutions, e.g., 1024x1024. The
StyleSwin, without complex training strategies, excels over StyleGAN on
CelebA-HQ 1024, and achieves on-par performance on FFHQ-1024, proving the
promise of using transformers for high-resolution image generation. The code
and models will be available at https://github.com/microsoft/StyleSwin.
- Abstract(参考訳): 幅広いビジョンタスクで成功を収めたにもかかわらず、トランスフォーマーはまだ高分解能画像生成モデリングにおけるconvnetsと同等の性能を実証していない。
本稿では,高分解能画像合成のための生成対向ネットワークを構築するために,純変換器を用いて探索する。
この目的のために、局所的な注意は計算効率とモデリング能力のバランスを取るために不可欠であると考えています。
そのため、提案したジェネレータはスタイルベースのアーキテクチャでSwingトランスフォーマーを採用する。
より広い受容場を実現するために,ローカルウィンドウとシフトウィンドウのコンテキストを同時に活用し,生成品質を向上するダブルアテンションを提案する。
さらに,ウィンドウベース変圧器で失われた絶対位置の知識を提供することは,生成品質を大幅に向上させることを示す。
提案したStyleSwinは高解像度にスケーラブルであり、粗い幾何学と微細構造の両方が変換器の強い表現性から恩恵を受けている。
しかし、局所的な注意をブロック的に行うと空間的一貫性が損なわれるため、高分解能合成中にブロックアーティファクトが発生する。
そこで本研究では,ウェーブレット判別器を用いてスペクトルの差分性を調べることにより,人工物が効果的に抑制されることを実証的に検討した。
大規模な実験は、特に高分解能の1024x1024において、先行のトランスフォーマーベースのGANよりも優れていることを示している。
StyleSwinは複雑なトレーニング戦略を持たず、CelebA-HQ 1024のStyleGANを抜いてFFHQ-1024のオンパーパフォーマンスを実現し、高解像度の画像生成にトランスフォーマーを使用するという約束を証明する。
コードとモデルはhttps://github.com/microsoft/styleswinで入手できる。
関連論文リスト
- SwinStyleformer is a favorable choice for image inversion [2.8115030277940947]
本稿では,SwinStyleformerと呼ばれるトランスフォーマー構造インバージョンネットワークを提案する。
実験の結果、トランスフォーマーのバックボーンによるインバージョンネットワークは、画像の反転に成功しなかった。
論文 参考訳(メタデータ) (2024-06-19T02:08:45Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Combining Transformer Generators with Convolutional Discriminators [9.83490307808789]
最近提案されたTransGANはトランスフォーマーアーキテクチャのみを使用した最初のGANである。
TransGANは、データ拡張、トレーニング中の補助的な超解像タスク、そして自己保持メカニズムを導く前にマスクを必要とする。
我々は、よく知られたCNN識別器のベンチマークを行い、トランスフォーマーベースジェネレータのサイズを減らし、両方のアーキテクチャ要素をハイブリッドモデルに組み込むことにより、より良い結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-05-21T07:56:59Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - TransGAN: Two Transformers Can Make One Strong GAN [111.07699201175919]
我々は、純粋なトランスフォーマーベースのアーキテクチャのみを用いて、完全に畳み込みのないGANテキストを構築できる最初のパイロット研究を行う。
バニラGANアーキテクチャはtextbfTransGANと呼ばれ、メモリフレンドリーなトランスフォーマーベースのジェネレータで構成されています。
当社の最高のアーキテクチャは、コンボリューションバックボーンに基づく最新のGANと比較して非常に競争力のあるパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-02-14T05:24:48Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。