論文の概要: Combining Transformer Generators with Convolutional Discriminators
- arxiv url: http://arxiv.org/abs/2105.10189v1
- Date: Fri, 21 May 2021 07:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 09:53:08.829199
- Title: Combining Transformer Generators with Convolutional Discriminators
- Title(参考訳): 変圧器発電機と畳み込みディスクリミネータの組み合わせ
- Authors: Ricard Durall, Stanislav Frolov, Andreas Dengel, Janis Keuper
- Abstract要約: 最近提案されたTransGANはトランスフォーマーアーキテクチャのみを使用した最初のGANである。
TransGANは、データ拡張、トレーニング中の補助的な超解像タスク、そして自己保持メカニズムを導く前にマスクを必要とする。
我々は、よく知られたCNN識別器のベンチマークを行い、トランスフォーマーベースジェネレータのサイズを減らし、両方のアーキテクチャ要素をハイブリッドモデルに組み込むことにより、より良い結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 9.83490307808789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models have recently attracted much interest from computer vision
researchers and have since been successfully employed for several problems
traditionally addressed with convolutional neural networks. At the same time,
image synthesis using generative adversarial networks (GANs) has drastically
improved over the last few years. The recently proposed TransGAN is the first
GAN using only transformer-based architectures and achieves competitive results
when compared to convolutional GANs. However, since transformers are
data-hungry architectures, TransGAN requires data augmentation, an auxiliary
super-resolution task during training, and a masking prior to guide the
self-attention mechanism. In this paper, we study the combination of a
transformer-based generator and convolutional discriminator and successfully
remove the need of the aforementioned required design choices. We evaluate our
approach by conducting a benchmark of well-known CNN discriminators, ablate the
size of the transformer-based generator, and show that combining both
architectural elements into a hybrid model leads to better results.
Furthermore, we investigate the frequency spectrum properties of generated
images and observe that our model retains the benefits of an attention based
generator.
- Abstract(参考訳): トランスフォーマーモデルは最近、コンピュータビジョン研究者から多くの関心を集め、従来畳み込みニューラルネットワークで取り組まれてきたいくつかの問題に成功している。
同時に、この数年間で、gans(generative adversarial network)を用いた画像合成が大幅に改善されている。
最近提案されたTransGANはトランスフォーマーアーキテクチャのみを使用した最初のGANであり、畳み込みGANと比較して競合する結果が得られる。
しかし、トランスフォーマーはデータハングリーアーキテクチャであるため、TransGANはデータ拡張、トレーニング中の補助的な超解像タスク、自己保持メカニズムを導くためのマスクを必要とする。
本稿では,変圧器を用いた発電機と畳み込み識別器の組み合わせについて検討し,上記の設計選択の必要性を解消する。
我々は,有名なcnn判別器のベンチマークを行い,トランスフォーマティブ・ジェネレータのサイズを省略し,両方のアーキテクチャ要素をハイブリッドモデルに組み合わせることでよりよい結果が得られることを示す。
さらに,生成された画像の周波数スペクトル特性を調査し,本モデルが注意に基づく生成装置の利点を保っていることを確認する。
関連論文リスト
- Efficient generative adversarial networks using linear additive-attention Transformers [0.8287206589886879]
本稿では,Ladaformer という線形アテンショントランスフォーマーブロックに基づく新しい GAN アーキテクチャを提案する。
LadaGANは、さまざまな解像度のベンチマークデータセットにおいて、既存の畳み込みGANとTransformer GANを一貫して上回る。
LadaGANは、最先端のマルチステップ生成モデルと比較して、競争性能を示している。
論文 参考訳(メタデータ) (2024-01-17T21:08:41Z) - Structural Prior Guided Generative Adversarial Transformers for
Low-Light Image Enhancement [51.22694467126883]
低照度画像強調を実現するために,SPGAT (Structure Prior Guided Generative Adversarial Transformer) を提案する。
このジェネレータはU字型のトランスフォーマーをベースとしており、非局所的な情報を探り、画像の鮮明な復元に役立てている。
より現実的な画像を生成するために,生成器と識別器のスキップ接続を構築することによって,新しい構造的事前学習手法を開発した。
論文 参考訳(メタデータ) (2022-07-16T04:05:40Z) - Transformer based Generative Adversarial Network for Liver Segmentation [4.317557160310758]
本稿では,Transformer(s) とGenerative Adversarial Network (GAN) を組み合わせたハイブリッドアプローチを用いた新しいセグメンテーション手法を提案する。
我々のモデルは高いダイス係数0.9433、リコール0.9515、精度0.9376、その他のトランスフォーマーベースアプローチより優れていた。
論文 参考訳(メタデータ) (2022-05-21T19:55:43Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - TransGAN: Two Transformers Can Make One Strong GAN [111.07699201175919]
我々は、純粋なトランスフォーマーベースのアーキテクチャのみを用いて、完全に畳み込みのないGANテキストを構築できる最初のパイロット研究を行う。
バニラGANアーキテクチャはtextbfTransGANと呼ばれ、メモリフレンドリーなトランスフォーマーベースのジェネレータで構成されています。
当社の最高のアーキテクチャは、コンボリューションバックボーンに基づく最新のGANと比較して非常に競争力のあるパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-02-14T05:24:48Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。