論文の概要: TransGAN: Two Transformers Can Make One Strong GAN
- arxiv url: http://arxiv.org/abs/2102.07074v2
- Date: Tue, 16 Feb 2021 05:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 12:07:14.854319
- Title: TransGAN: Two Transformers Can Make One Strong GAN
- Title(参考訳): TransGAN:2つのトランスフォーマーが強力なガンを作れる
- Authors: Yifan Jiang, Shiyu Chang, Zhangyang Wang
- Abstract要約: 我々は、純粋なトランスフォーマーベースのアーキテクチャのみを用いて、完全に畳み込みのないGANテキストを構築できる最初のパイロット研究を行う。
バニラGANアーキテクチャはtextbfTransGANと呼ばれ、メモリフレンドリーなトランスフォーマーベースのジェネレータで構成されています。
当社の最高のアーキテクチャは、コンボリューションバックボーンに基づく最新のGANと比較して非常に競争力のあるパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 111.07699201175919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent explosive interest on transformers has suggested their potential
to become powerful "universal" models for computer vision tasks, such as
classification, detection, and segmentation. However, how further transformers
can go - are they ready to take some more notoriously difficult vision tasks,
e.g., generative adversarial networks (GANs)? Driven by that curiosity, we
conduct the first pilot study in building a GAN \textbf{completely free of
convolutions}, using only pure transformer-based architectures. Our vanilla GAN
architecture, dubbed \textbf{TransGAN}, consists of a memory-friendly
transformer-based generator that progressively increases feature resolution
while decreasing embedding dimension, and a patch-level discriminator that is
also transformer-based. We then demonstrate TransGAN to notably benefit from
data augmentations (more than standard GANs), a multi-task co-training strategy
for the generator, and a locally initialized self-attention that emphasizes the
neighborhood smoothness of natural images. Equipped with those findings,
TransGAN can effectively scale up with bigger models and high-resolution image
datasets. Specifically, our best architecture achieves highly competitive
performance compared to current state-of-the-art GANs based on convolutional
backbones. Specifically, TransGAN sets \textbf{new state-of-the-art} IS score
of 10.10 and FID score of 25.32 on STL-10. It also reaches competitive 8.64 IS
score and 11.89 FID score on Cifar-10, and 12.23 FID score on CelebA
$64\times64$, respectively. We also conclude with a discussion of the current
limitations and future potential of TransGAN. The code is available at
\url{https://github.com/VITA-Group/TransGAN}.
- Abstract(参考訳): 最近の変圧器に対する爆発的な関心は、分類、検出、セグメンテーションといったコンピュータビジョンタスクのための強力な「ユニバーサル」モデルになる可能性を示唆している。
しかし、トランスフォーマーはどこまで進むことができるのか?例えばgans(generative adversarial networks)のような、より悪名高い視覚タスクをこなす準備はできているのか?
このような好奇心を駆使して、純粋なトランスフォーマーベースのアーキテクチャのみを用いて、GAN \textbf{completely free of convolutions}を構築するための最初のパイロット研究を行う。
私たちのバニラGANアーキテクチャである \textbf{TransGAN} は、組み込み寸法を減らしながら機能解像度を段階的に向上するメモリフレンドリーなトランスフォーマーベースのジェネレータと、トランスフォーマーベースのパッチレベルの識別装置で構成されています。
次に,自然画像の近傍の滑らかさを強調する局所初期化セルフアテンションにより,データ拡張(標準ganよりも多く),マルチタスク協調学習戦略,およびトランスガンの利点を実証する。
これらの結果と合わせて、TransGANはより大きなモデルと高解像度の画像データセットで効果的にスケールアップできる。
特に,我々の最高のアーキテクチャは,畳み込みバックボーンに基づく現在の最先端のGANと比較して,高い競争性能を実現している。
具体的には、TransGAN は STL-10 で 10.10 と FID スコア 25.32 の \textbf{new state-of-the-art} IS スコアを設定する。
また、8.64 ISスコアと11.89 FIDスコアをシファー10で、12.23 FIDスコアをCelebA $64\times64$でそれぞれ達成している。
また、TransGANの現在の限界と将来の可能性についても論じる。
コードは \url{https://github.com/VITA-Group/TransGAN} で入手できる。
関連論文リスト
- TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - StyleSwin: Transformer-based GAN for High-resolution Image Generation [28.703687511694305]
我々は,高分解能画像合成のための生成的対向ネットワークを構築するために,純粋なトランスフォーマーを用いて探究する。
提案されたジェネレータはスタイルベースのアーキテクチャでSwingトランスフォーマーを採用する。
ウィンドウベースの変圧器で失われた絶対位置の知識を提供することは、生成品質に大きな恩恵をもたらすことを示す。
論文 参考訳(メタデータ) (2021-12-20T18:59:51Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Combining Transformer Generators with Convolutional Discriminators [9.83490307808789]
最近提案されたTransGANはトランスフォーマーアーキテクチャのみを使用した最初のGANである。
TransGANは、データ拡張、トレーニング中の補助的な超解像タスク、そして自己保持メカニズムを導く前にマスクを必要とする。
我々は、よく知られたCNN識別器のベンチマークを行い、トランスフォーマーベースジェネレータのサイズを減らし、両方のアーキテクチャ要素をハイブリッドモデルに組み込むことにより、より良い結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-05-21T07:56:59Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。