論文の概要: Making Vision Transformers Truly Shift-Equivariant
- arxiv url: http://arxiv.org/abs/2305.16316v2
- Date: Tue, 28 Nov 2023 22:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:48:54.655113
- Title: Making Vision Transformers Truly Shift-Equivariant
- Title(参考訳): ビジョントランスフォーマーを本当に変身させる
- Authors: Renan A. Rojas-Gomez, Teck-Yian Lim, Minh N. Do, Raymond A. Yeh
- Abstract要約: ビジョントランスフォーマー (ViT) は、コンピュータビジョンのためのディープネットアーキテクチャの1つとなっている。
トークン化,自己アテンション,パッチマージ,位置エンコーディングなど,各モジュールに対する新しいデータ適応設計を導入する。
画像分類とセマンティックセグメンテーションタスクにおける適応モデルの評価を行った。
- 参考スコア(独自算出の注目度): 20.61570323513044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For computer vision, Vision Transformers (ViTs) have become one of the go-to
deep net architectures. Despite being inspired by Convolutional Neural Networks
(CNNs), ViTs' output remains sensitive to small spatial shifts in the input,
i.e., not shift invariant. To address this shortcoming, we introduce novel
data-adaptive designs for each of the modules in ViTs, such as tokenization,
self-attention, patch merging, and positional encoding. With our proposed
modules, we achieve true shift-equivariance on four well-established ViTs,
namely, Swin, SwinV2, CvT, and MViTv2. Empirically, we evaluate the proposed
adaptive models on image classification and semantic segmentation tasks. These
models achieve competitive performance across three different datasets while
maintaining 100% shift consistency.
- Abstract(参考訳): コンピュータビジョンでは、ビジョントランスフォーマー (ViT) が網の深いアーキテクチャの1つになっている。
畳み込みニューラルネットワーク(cnns)に触発されたにもかかわらず、vitsの出力は入力の小さな空間的シフト、すなわちシフト不変量に敏感である。
この欠点に対処するために、トークン化、自己アテンション、パッチマージ、位置エンコーディングなど、ViTの各モジュールに新しいデータ適応型設計を導入する。
提案するモジュールでは,Swin,SwinV2,CvT,MViTv2という,確立された4つのViTに対して真のシフト等価性を実現する。
画像分類と意味セグメンテーションタスクにおける適応モデルの評価を行った。
これらのモデルは、100%シフト一貫性を維持しながら、3つの異なるデータセットで競合性能を達成します。
関連論文リスト
- Reviving Shift Equivariance in Vision Transformers [12.720600348466498]
本稿では,視覚変換器モデルにシームレスに統合可能な適応型多相アンカーアルゴリズムを提案する。
我々のアルゴリズムは、ViTとその変種であるTwinsを、入力シフトに関して100%整合性を達成することができる。
論文 参考訳(メタデータ) (2023-06-13T00:13:11Z) - $E(2)$-Equivariant Vision Transformer [11.94180035256023]
Vision Transformer (ViT) はコンピュータビジョンにおいて優れた性能を発揮している。
ViTにおける位置符号化は、データの本質的な等価性を学ぶのを著しく困難にする。
我々は、新しい効果的な位置符号化演算子を用いて、GE-ViT(Group Equivariant Vision Transformer)を設計する。
論文 参考訳(メタデータ) (2023-06-11T16:48:03Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Discrete Representations Strengthen Vision Transformer Robustness [43.821734467553554]
Vision Transformer (ViT) は、画像認識のための最先端アーキテクチャとして登場しつつある。
本稿では,ベクトル量子化エンコーダによって生成された離散トークンを付加することにより,ViTの入力層に対する簡易かつ効果的なアーキテクチャ変更を提案する。
実験結果から,4つのアーキテクチャ変種に離散表現を追加することで,7つのImageNetロバストネスベンチマークで最大12%のViTロバストネスが向上することが示された。
論文 参考訳(メタデータ) (2021-11-20T01:49:56Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。