論文の概要: Vision Transformers provably learn spatial structure
- arxiv url: http://arxiv.org/abs/2210.09221v1
- Date: Thu, 13 Oct 2022 19:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 17:32:19.996705
- Title: Vision Transformers provably learn spatial structure
- Title(参考訳): 視覚トランスフォーマーは空間構造を確実に学習する
- Authors: Samy Jelassi, Michael E. Sander, Yuanzhi Li
- Abstract要約: ビジョントランスフォーマー(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)と同等または優れたパフォーマンスを達成した。
しかし、最近の研究によると、トレーニング損失を最小限に抑える一方で、ViTは特に空間的局所化パターンを学習している。
- 参考スコア(独自算出の注目度): 34.61885883486938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have achieved comparable or superior performance
than Convolutional Neural Networks (CNNs) in computer vision. This empirical
breakthrough is even more remarkable since, in contrast to CNNs, ViTs do not
embed any visual inductive bias of spatial locality. Yet, recent works have
shown that while minimizing their training loss, ViTs specifically learn
spatially localized patterns. This raises a central question: how do ViTs learn
these patterns by solely minimizing their training loss using gradient-based
methods from random initialization? In this paper, we provide some theoretical
justification of this phenomenon. We propose a spatially structured dataset and
a simplified ViT model. In this model, the attention matrix solely depends on
the positional encodings. We call this mechanism the positional attention
mechanism. On the theoretical side, we consider a binary classification task
and show that while the learning problem admits multiple solutions that
generalize, our model implicitly learns the spatial structure of the dataset
while generalizing: we call this phenomenon patch association. We prove that
patch association helps to sample-efficiently transfer to downstream datasets
that share the same structure as the pre-training one but differ in the
features. Lastly, we empirically verify that a ViT with positional attention
performs similarly to the original one on CIFAR-10/100, SVHN and ImageNet.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)と同等または優れたパフォーマンスを達成した。
CNNとは対照的に、ViTは空間的局所性の視覚的帰納バイアスを埋めていないため、この経験的なブレークスルーはさらに顕著である。
しかし、最近の研究では、トレーニング損失を最小限に抑える一方で、ViTは特に空間的局所化パターンを学習している。
ViTは、ランダム初期化から勾配に基づく手法を用いてトレーニング損失を最小化することによって、これらのパターンをどうやって学習するのか?
本稿では,この現象の理論的正当性について述べる。
空間的に構造化されたデータセットと簡易なViTモデルを提案する。
このモデルでは、注意行列は位置符号化のみに依存する。
我々はこの機構を位置注意機構と呼ぶ。
理論的には、二項分類タスクを考慮し、学習問題には一般化する複数の解が存在するが、我々のモデルは、一般化しながらデータセットの空間構造を暗黙的に学習し、この現象をパッチアソシエーションと呼ぶ。
パッチアソシエーションは、事前学習したものと同じ構造を持つ下流データセットへのサンプル効率の良い転送に役立つが、特徴が異なることを実証する。
最後に、位置注意のあるvitがcifar-10/100、svhn、imagenetのオリジナルのvitと同様に動作することを実証的に検証する。
関連論文リスト
- Structured Initialization for Attention in Vision Transformers [34.374054040300805]
畳み込みニューラルネットワーク(CNN)は、アーキテクチャ上の帰納バイアスを持ち、小規模な問題に対してうまく機能する。
我々は、CNNに固有のアーキテクチャバイアスを、ViT内の初期化バイアスとして再解釈することができると論じる。
この洞察は、ViTsが大規模アプリケーションに対する柔軟性を維持しながら、小規模問題でも同じように機能する権限を付与する上で重要である。
論文 参考訳(メタデータ) (2024-04-01T14:34:47Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - ConViT: Improving Vision Transformers with Soft Convolutional Inductive
Biases [16.308432111311195]
ビジョントランスフォーマー(ViT)は、より柔軟な自己アテンション層に依存し、最近画像分類のためにCNNを上回っています。
本稿では,「ソフト」畳み込み型インダクティブバイアスを装着可能な位置自己アテンションの一形態であるゲート型位置自己アテンション(gpsa)を紹介する。
その結果、ConvolutionalライクなViTアーキテクチャであるConViTは、ImageNet上のDeiTよりも優れています。
論文 参考訳(メタデータ) (2021-03-19T09:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。