論文の概要: Discrete Representations Strengthen Vision Transformer Robustness
- arxiv url: http://arxiv.org/abs/2111.10493v1
- Date: Sat, 20 Nov 2021 01:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 15:21:47.167111
- Title: Discrete Representations Strengthen Vision Transformer Robustness
- Title(参考訳): 離散表現は視覚トランスフォーマーのロバスト性を強化する
- Authors: Chengzhi Mao, Lu Jiang, Mostafa Dehghani, Carl Vondrick, Rahul
Sukthankar, Irfan Essa
- Abstract要約: Vision Transformer (ViT) は、画像認識のための最先端アーキテクチャとして登場しつつある。
本稿では,ベクトル量子化エンコーダによって生成された離散トークンを付加することにより,ViTの入力層に対する簡易かつ効果的なアーキテクチャ変更を提案する。
実験結果から,4つのアーキテクチャ変種に離散表現を追加することで,7つのImageNetロバストネスベンチマークで最大12%のViTロバストネスが向上することが示された。
- 参考スコア(独自算出の注目度): 43.821734467553554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) is emerging as the state-of-the-art architecture for
image recognition. While recent studies suggest that ViTs are more robust than
their convolutional counterparts, our experiments find that ViTs are overly
reliant on local features (e.g., nuisances and texture) and fail to make
adequate use of global context (e.g., shape and structure). As a result, ViTs
fail to generalize to out-of-distribution, real-world data. To address this
deficiency, we present a simple and effective architecture modification to
ViT's input layer by adding discrete tokens produced by a vector-quantized
encoder. Different from the standard continuous pixel tokens, discrete tokens
are invariant under small perturbations and contain less information
individually, which promote ViTs to learn global information that is invariant.
Experimental results demonstrate that adding discrete representation on four
architecture variants strengthens ViT robustness by up to 12% across seven
ImageNet robustness benchmarks while maintaining the performance on ImageNet.
- Abstract(参考訳): Vision Transformer (ViT)は、画像認識のための最先端アーキテクチャとして登場しつつある。
近年の研究では、ViTは畳み込みよりも頑丈であることが示唆されているが、我々の実験では、ViTは局所的な特徴(例えば、核分裂やテクスチャ)に過度に依存しており、グローバルな文脈(例えば、形状と構造)を適切に利用できない。
結果として、ViTは配布外の実世界のデータに一般化できない。
この不足に対処するために,ベクトル量子化エンコーダによって生成された離散トークンを追加することで,vitの入力層をシンプルかつ効果的なアーキテクチャ修正する。
標準の連続画素トークンとは異なり、離散トークンは小さな摂動の下で不変であり、個別に情報を含まないため、vitsは不変であるグローバル情報を学ぶことができる。
実験結果から,4つのアーキテクチャバリアントに離散表現を追加することで,ImageNetのパフォーマンスを維持しながら,7つのImageNetロバストネスベンチマークにおいて,ViTロバストネスが最大12%向上することが示された。
関連論文リスト
- Semantic Graph Consistency: Going Beyond Patches for Regularizing Self-Supervised Vision Transformers [5.359378066251386]
視覚変換器(ViT)を用いた自己教師型学習は表現学習に有効であることが証明されている。
既存のViTベースのSSLアーキテクチャは、ViTバックボーンを完全に活用していない。
本稿では,ViTベースのSSLメソッドを標準化し,パッチトークンを効果的に活用するための新しいセマンティックグラフ一貫性(SGC)モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-18T06:36:44Z) - Making Vision Transformers Truly Shift-Equivariant [20.61570323513044]
ビジョントランスフォーマー (ViT) は、コンピュータビジョンのためのディープネットアーキテクチャの1つとなっている。
トークン化,自己アテンション,パッチマージ,位置エンコーディングなど,各モジュールに対する新しいデータ適応設計を導入する。
画像分類とセマンティックセグメンテーションタスクにおける適応モデルの評価を行った。
論文 参考訳(メタデータ) (2023-05-25T17:59:40Z) - Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文 参考訳(メタデータ) (2022-07-25T17:57:05Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。