論文の概要: ViTGAN: Training GANs with Vision Transformers
- arxiv url: http://arxiv.org/abs/2107.04589v2
- Date: Wed, 29 May 2024 09:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 02:51:07.896220
- Title: ViTGAN: Training GANs with Vision Transformers
- Title(参考訳): ViTGAN:視覚変換器を用いたガン訓練
- Authors: Kwonjoon Lee, Huiwen Chang, Lu Jiang, Han Zhang, Zhuowen Tu, Ce Liu,
- Abstract要約: 視覚変換器(ViT)は、視覚固有の誘導バイアスを少なくしながら、画像認識に競争力を発揮している。
ViTを用いたGANのトレーニングのための新しい正規化手法をいくつか紹介する。
我々のアプローチはViTGANと呼ばれ、3つのデータセット上の主要なCNNベースのGANモデルに匹敵する性能を実現している。
- 参考スコア(独自算出の注目度): 46.769407314698434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Vision Transformers (ViTs) have shown competitive performance on image recognition while requiring less vision-specific inductive biases. In this paper, we investigate if such performance can be extended to image generation. To this end, we integrate the ViT architecture into generative adversarial networks (GANs). For ViT discriminators, we observe that existing regularization methods for GANs interact poorly with self-attention, causing serious instability during training. To resolve this issue, we introduce several novel regularization techniques for training GANs with ViTs. For ViT generators, we examine architectural choices for latent and pixel mapping layers to facilitate convergence. Empirically, our approach, named ViTGAN, achieves comparable performance to the leading CNN-based GAN models on three datasets: CIFAR-10, CelebA, and LSUN bedroom.
- Abstract(参考訳): 近年、視覚変換器(ViT)は、視覚固有の誘導バイアスを少なくしながら、画像認識に競争力を発揮している。
本稿では,このような性能を画像生成に拡張できるかどうかについて検討する。
この目的のために、我々はViTアーキテクチャをGAN(Generative Adversarial Network)に統合する。
ViT差別者に対しては、既存のGANの正規化手法が自己注意と不適切な相互作用をし、トレーニング中に深刻な不安定を生じさせることが観察された。
この問題を解決するために、我々は、VTを用いたGANのトレーニングのための新しい正規化手法をいくつか導入する。
ViTジェネレータに対しては,収束を容易にするため,潜在層と画素マッピング層のアーキテクチャ選択について検討する。
実証的に、我々のアプローチはViTGANと呼ばれ、CIFAR-10、CelebA、LSUN寝室という3つのデータセット上で、主要なCNNベースのGANモデルに匹敵する性能を実現している。
関連論文リスト
- When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。
対人訓練にはプレトレーニングとSGDが必要であることが判明した。
私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文 参考訳(メタデータ) (2022-10-14T05:37:20Z) - Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文 参考訳(メタデータ) (2022-07-25T17:57:05Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Evaluating Vision Transformer Methods for Deep Reinforcement Learning
from Pixels [7.426118390008397]
画像に基づく強化学習制御タスクに対する視覚変換器(ViT)訓練手法の評価を行った。
これらの結果を,主要な畳み込みネットワークアーキテクチャ手法であるRADと比較する。
RADを用いてトレーニングされたCNNアーキテクチャは、一般的には優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2022-04-11T07:10:58Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - UVCGAN: UNet Vision Transformer cycle-consistent GAN for unpaired
image-to-image translation [7.998209482848582]
画像から画像への翻訳は、芸術、デザイン、科学シミュレーションに広く応用されている。
本研究は,視覚変換器(ViT)をCycleGANに装着し,GANトレーニング技術を用いてより優れた性能を実現するかを検討する。
論文 参考訳(メタデータ) (2022-03-04T20:27:16Z) - Hybrid Local-Global Transformer for Image Dehazing [18.468149424220424]
Vision Transformer (ViT)は、ハイレベルかつ低レベルなビジョンタスクにおいて素晴らしいパフォーマンスを示している。
そこで我々は,Hybrid Local-Global Vision Transformer (HyLoG-ViT) という新しいViTアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-15T06:13:22Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。