Fugu-MT 論文翻訳(概要): ViTGAN: Training GANs with Vision Transformers

論文の概要: ViTGAN: Training GANs with Vision Transformers

arxiv url: http://arxiv.org/abs/2107.04589v1
Date: Fri, 9 Jul 2021 17:59:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-12 13:52:44.675231
Title: ViTGAN: Training GANs with Vision Transformers
Title（参考訳）: ViTGAN:視覚変換器を用いたガン訓練
Authors: Kwonjoon Lee, Huiwen Chang, Lu Jiang, Han Zhang, Zhuowen Tu, Ce Liu
Abstract要約: 視覚変換器(ViT)は、視覚固有の誘導バイアスを少なくしながら、画像認識に競争力を発揮している。本稿では,VTアーキテクチャをGAN(Generative Adversarial Network)に統合する。我々は,既存のGANの正規化手法が自己意識と不十分に相互作用し,トレーニング中に深刻な不安定を引き起こすことを観察した。
参考スコア（独自算出の注目度）: 37.98203037683615
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Vision Transformers (ViTs) have shown competitive performance on image recognition while requiring less vision-specific inductive biases. In this paper, we investigate if such observation can be extended to image generation. To this end, we integrate the ViT architecture into generative adversarial networks (GANs). We observe that existing regularization methods for GANs interact poorly with self-attention, causing serious instability during training. To resolve this issue, we introduce novel regularization techniques for training GANs with ViTs. Empirically, our approach, named ViTGAN, achieves comparable performance to state-of-the-art CNN-based StyleGAN2 on CIFAR-10, CelebA, and LSUN bedroom datasets.
Abstract（参考訳）: 近年、視覚変換器(ViT)は、視覚固有の誘導バイアスを少なくしながら、画像認識に競争力を発揮している。本稿では,このような観察を画像生成に拡張できるかどうかを検討する。この目的のために、我々はViTアーキテクチャをGAN(Generative Adversarial Network)に統合する。我々は,ganの既存の正規化手法が自己着脱に乏しく,訓練中に深刻な不安定性を引き起こすことを観察する。この問題を解決するために,我々は,新しい正規化手法を導入し,GANをViTでトレーニングする。 CIFAR-10、CelebA、LSUNの寝室データセット上で、我々のアプローチであるViTGANは最先端のCNNベースのStyleGAN2に匹敵する性能を実現している。

関連論文リスト

Boosting Generative Adversarial Transferability with Self-supervised Vision Transformer Features [3.7165774213454847]
本稿では,自己教師型視覚変換器(ViT)の表現を活用すれば,対向トランスフォーマビリティが向上するかどうかを考察する。コントラスト学習(CL)によるグローバルな構造的特徴とマスク画像モデリング(MIM)による局所的なテクスチャ的特徴の両方を活用する。 CLおよびMIMは,ViTsを異なる特徴傾向に適応し,タンデムで利用した場合,高い対向的一般化性を示すことが示唆された。
論文参考訳（メタデータ） (2025-06-26T06:47:51Z)
Stronger ViTs With Octic Equivariance [13.357266345180296]
ViT(Vision Transformers)は、画像パッチ上の重み共有を重要な帰納バイアスとして組み込んでいる。我々は,オクティック・平等な層を用いた新しいアーキテクチャであるオクティック・ヴァイツを開発し,教師付き学習と自己教師型学習の両面でのテストに投入する。また,VT-HのFLOPの約40%の削減を実現し,分類とセグメンテーションの両面で改善した。
論文参考訳（メタデータ） (2025-05-21T12:22:53Z)
When Adversarial Training Meets Vision Transformers: Recipes from Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。対人訓練にはプレトレーニングとSGDが必要であることが判明した。私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文参考訳（メタデータ） (2022-10-14T05:37:20Z)
Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。 5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文参考訳（メタデータ） (2022-07-25T17:57:05Z)
Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文参考訳（メタデータ） (2022-04-26T08:22:34Z)
Evaluating Vision Transformer Methods for Deep Reinforcement Learning from Pixels [7.426118390008397]
画像に基づく強化学習制御タスクに対する視覚変換器(ViT)訓練手法の評価を行った。これらの結果を,主要な畳み込みネットワークアーキテクチャ手法であるRADと比較する。 RADを用いてトレーニングされたCNNアーキテクチャは、一般的には優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2022-04-11T07:10:58Z)
Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。本稿では,画像の高周波成分を直接補うHATを提案する。 HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文参考訳（メタデータ） (2022-04-03T05:16:51Z)
UVCGAN: UNet Vision Transformer cycle-consistent GAN for unpaired image-to-image translation [7.998209482848582]
画像から画像への翻訳は、芸術、デザイン、科学シミュレーションに広く応用されている。本研究は,視覚変換器(ViT)をCycleGANに装着し,GANトレーニング技術を用いてより優れた性能を実現するかを検討する。
論文参考訳（メタデータ） (2022-03-04T20:27:16Z)
Hybrid Local-Global Transformer for Image Dehazing [18.468149424220424]
Vision Transformer (ViT)は、ハイレベルかつ低レベルなビジョンタスクにおいて素晴らしいパフォーマンスを示している。そこで我々は,Hybrid Local-Global Vision Transformer (HyLoG-ViT) という新しいViTアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-09-15T06:13:22Z)
Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文参考訳（メタデータ） (2021-06-17T02:30:26Z)
Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。 ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文参考訳（メタデータ） (2021-05-21T17:59:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。