論文の概要: $E(2)$-Equivariant Vision Transformer
- arxiv url: http://arxiv.org/abs/2306.06722v3
- Date: Fri, 7 Jul 2023 06:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 15:07:09.800701
- Title: $E(2)$-Equivariant Vision Transformer
- Title(参考訳): $E(2)$-Equivariant Vision Transformer
- Authors: Renjun Xu and Kaifan Yang and Ke Liu and Fengxiang He
- Abstract要約: Vision Transformer (ViT) はコンピュータビジョンにおいて優れた性能を発揮している。
ViTにおける位置符号化は、データの本質的な等価性を学ぶのを著しく困難にする。
我々は、新しい効果的な位置符号化演算子を用いて、GE-ViT(Group Equivariant Vision Transformer)を設計する。
- 参考スコア(独自算出の注目度): 11.94180035256023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) has achieved remarkable performance in computer
vision. However, positional encoding in ViT makes it substantially difficult to
learn the intrinsic equivariance in data. Initial attempts have been made on
designing equivariant ViT but are proved defective in some cases in this paper.
To address this issue, we design a Group Equivariant Vision Transformer
(GE-ViT) via a novel, effective positional encoding operator. We prove that
GE-ViT meets all the theoretical requirements of an equivariant neural network.
Comprehensive experiments are conducted on standard benchmark datasets,
demonstrating that GE-ViT significantly outperforms non-equivariant
self-attention networks. The code is available at
https://github.com/ZJUCDSYangKaifan/GEVit.
- Abstract(参考訳): Vision Transformer (ViT) はコンピュータビジョンにおいて優れた性能を発揮している。
しかし、ViTにおける位置符号化は、データの本質的な等価性を学ぶのを著しく困難にしている。
当初、同変 ViT を設計する試みがあったが、この論文ではいくつかのケースで欠陥があることが証明されている。
この問題に対処するため、我々は、新しい効果的な位置符号化演算子を用いて、GE-ViT(Group Equivariant Vision Transformer)を設計する。
GE-ViTは同変ニューラルネットワークの理論的要件をすべて満たしていることを示す。
GE-ViTが非同変自己注意ネットワークを著しく上回ることを示すため、標準ベンチマークデータセットで包括的な実験が行われた。
コードはhttps://github.com/zjucdsyangkaifan/gevitで入手できる。
関連論文リスト
- ViTs are Everywhere: A Comprehensive Study Showcasing Vision
Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。
ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文 参考訳(メタデータ) (2023-10-09T12:31:30Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2023-09-24T10:22:35Z) - Making Vision Transformers Truly Shift-Equivariant [20.61570323513044]
ビジョントランスフォーマー (ViT) は、コンピュータビジョンのためのディープネットアーキテクチャの1つとなっている。
トークン化,自己アテンション,パッチマージ,位置エンコーディングなど,各モジュールに対する新しいデータ適応設計を導入する。
画像分類とセマンティックセグメンテーションタスクにおける適応モデルの評価を行った。
論文 参考訳(メタデータ) (2023-05-25T17:59:40Z) - Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文 参考訳(メタデータ) (2022-07-25T17:57:05Z) - Vision Transformer Adapter for Dense Predictions [57.590511173416445]
Vision Transformer (ViT) は画像の事前情報がないため、高密度な予測タスクでは性能が劣る。
本稿では、ViTの欠陥を修復し、視覚特化モデルに匹敵する性能を実現するビジョントランスフォーマーアダプタ(ViT-Adapter)を提案する。
我々は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションを含む複数の下流タスクにおけるViT-Adapterの有効性を検証する。
論文 参考訳(メタデータ) (2022-05-17T17:59:11Z) - Discrete Representations Strengthen Vision Transformer Robustness [43.821734467553554]
Vision Transformer (ViT) は、画像認識のための最先端アーキテクチャとして登場しつつある。
本稿では,ベクトル量子化エンコーダによって生成された離散トークンを付加することにより,ViTの入力層に対する簡易かつ効果的なアーキテクチャ変更を提案する。
実験結果から,4つのアーキテクチャ変種に離散表現を追加することで,7つのImageNetロバストネスベンチマークで最大12%のViTロバストネスが向上することが示された。
論文 参考訳(メタデータ) (2021-11-20T01:49:56Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。