論文の概要: The Nuts and Bolts of Adopting Transformer in GANs
- arxiv url: http://arxiv.org/abs/2110.13107v3
- Date: Tue, 13 Jun 2023 15:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 19:04:19.183272
- Title: The Nuts and Bolts of Adopting Transformer in GANs
- Title(参考訳): GANにおける変圧器導入の栄養とボルト
- Authors: Rui Xu, Xiangyu Xu, Kai Chen, Bolei Zhou, Chen Change Loy
- Abstract要約: 高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
- 参考スコア(独自算出の注目度): 124.30856952272913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer becomes prevalent in computer vision, especially for high-level
vision tasks. However, adopting Transformer in the generative adversarial
network (GAN) framework is still an open yet challenging problem. In this
paper, we conduct a comprehensive empirical study to investigate the properties
of Transformer in GAN for high-fidelity image synthesis. Our analysis
highlights and reaffirms the importance of feature locality in image
generation, although the merits of the locality are well known in the
classification task. Perhaps more interestingly, we find the residual
connections in self-attention layers harmful for learning Transformer-based
discriminators and conditional generators. We carefully examine the influence
and propose effective ways to mitigate the negative impacts. Our study leads to
a new alternative design of Transformers in GAN, a convolutional neural network
(CNN)-free generator termed as STrans-G, which achieves competitive results in
both unconditional and conditional image generations. The Transformer-based
discriminator, STrans-D, also significantly reduces its gap against the
CNN-based discriminators.
- Abstract(参考訳): トランスフォーマーはコンピュータビジョン、特にハイレベルなビジョンタスクで普及する。
しかし、generative adversarial network(gan)フレームワークにおけるtransformerの採用は、まだオープンだが困難な問題である。
本稿では,高忠実度画像合成のためのGANにおけるトランスフォーマーの特性について,総合的研究を行った。
画像生成における特徴的局所性の重要性を強調し,再確認するが,局所性は分類課題においてよく知られている。
さらに興味深いのは、トランスフォーマーベースの識別器と条件付きジェネレータを学習するのに有害な自己注意層内の残余の接続があることである。
我々は,影響を慎重に検討し,悪影響を軽減する効果的な方法を提案する。
本研究では,STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANのトランスフォーマーを新たに設計し,非条件画像生成と条件画像生成の両面で競合する結果を得た。
Transformerベースの識別器であるSTrans-Dは、CNNベースの識別器とのギャップを大幅に減らす。
関連論文リスト
- Transformer-based Generative Adversarial Networks in Computer Vision: A
Comprehensive Survey [26.114550071165628]
Generative Adversarial Networks (GAN) は、与えられたデータセット内の画像を合成するのに非常に成功した。
最近の研究は、画像/ビデオ合成において、GANフレームワークのトランスフォーマーを活用しようと試みている。
本稿では,コンピュータビジョン応用のためのTransformerネットワークを利用したGANの開発と進歩に関する総合的な調査を行う。
論文 参考訳(メタデータ) (2023-02-17T01:13:58Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - StyleSwin: Transformer-based GAN for High-resolution Image Generation [28.703687511694305]
我々は,高分解能画像合成のための生成的対向ネットワークを構築するために,純粋なトランスフォーマーを用いて探究する。
提案されたジェネレータはスタイルベースのアーキテクチャでSwingトランスフォーマーを採用する。
ウィンドウベースの変圧器で失われた絶対位置の知識を提供することは、生成品質に大きな恩恵をもたらすことを示す。
論文 参考訳(メタデータ) (2021-12-20T18:59:51Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - Combining Transformer Generators with Convolutional Discriminators [9.83490307808789]
最近提案されたTransGANはトランスフォーマーアーキテクチャのみを使用した最初のGANである。
TransGANは、データ拡張、トレーニング中の補助的な超解像タスク、そして自己保持メカニズムを導く前にマスクを必要とする。
我々は、よく知られたCNN識別器のベンチマークを行い、トランスフォーマーベースジェネレータのサイズを減らし、両方のアーキテクチャ要素をハイブリッドモデルに組み込むことにより、より良い結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-05-21T07:56:59Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - TransGAN: Two Transformers Can Make One Strong GAN [111.07699201175919]
我々は、純粋なトランスフォーマーベースのアーキテクチャのみを用いて、完全に畳み込みのないGANテキストを構築できる最初のパイロット研究を行う。
バニラGANアーキテクチャはtextbfTransGANと呼ばれ、メモリフレンドリーなトランスフォーマーベースのジェネレータで構成されています。
当社の最高のアーキテクチャは、コンボリューションバックボーンに基づく最新のGANと比較して非常に競争力のあるパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-02-14T05:24:48Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。