論文の概要: ConViT: Improving Vision Transformers with Soft Convolutional Inductive
Biases
- arxiv url: http://arxiv.org/abs/2103.10697v1
- Date: Fri, 19 Mar 2021 09:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 14:45:33.686636
- Title: ConViT: Improving Vision Transformers with Soft Convolutional Inductive
Biases
- Title(参考訳): ConViT:Soft Convolutional Inductive Biaseによる視覚変換器の改良
- Authors: St\'ephane d'Ascoli, Hugo Touvron, Matthew Leavitt, Ari Morcos, Giulio
Biroli, Levent Sagun
- Abstract要約: ビジョントランスフォーマー(ViT)は、より柔軟な自己アテンション層に依存し、最近画像分類のためにCNNを上回っています。
本稿では,「ソフト」畳み込み型インダクティブバイアスを装着可能な位置自己アテンションの一形態であるゲート型位置自己アテンション(gpsa)を紹介する。
その結果、ConvolutionalライクなViTアーキテクチャであるConViTは、ImageNet上のDeiTよりも優れています。
- 参考スコア(独自算出の注目度): 16.308432111311195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional architectures have proven extremely successful for vision
tasks. Their hard inductive biases enable sample-efficient learning, but come
at the cost of a potentially lower performance ceiling. Vision Transformers
(ViTs) rely on more flexible self-attention layers, and have recently
outperformed CNNs for image classification. However, they require costly
pre-training on large external datasets or distillation from pre-trained
convolutional networks. In this paper, we ask the following question: is it
possible to combine the strengths of these two architectures while avoiding
their respective limitations? To this end, we introduce gated positional
self-attention (GPSA), a form of positional self-attention which can be
equipped with a "soft" convolutional inductive bias. We initialize the GPSA
layers to mimic the locality of convolutional layers, then give each attention
head the freedom to escape locality by adjusting a gating parameter regulating
the attention paid to position versus content information. The resulting
convolutional-like ViT architecture, ConViT, outperforms the DeiT on ImageNet,
while offering a much improved sample efficiency. We further investigate the
role of locality in learning by first quantifying how it is encouraged in
vanilla self-attention layers, then analyzing how it is escaped in GPSA layers.
We conclude by presenting various ablations to better understand the success of
the ConViT. Our code and models are released publicly.
- Abstract(参考訳): 畳み込みアーキテクチャはビジョンタスクで非常に成功した。
ハードインダクティブバイアスは、サンプル効率のよい学習を可能にするが、潜在的に低いパフォーマンス天井のコストが伴う。
視覚変換器(ViT)はより柔軟な自己注意層に依存しており、最近画像分類においてCNNよりも優れています。
しかし、大きな外部データセットでのコストのかかる事前トレーニングや、事前訓練された畳み込みネットワークからの蒸留が必要となる。
本稿では,これらの2つのアーキテクチャの長所を,それぞれの制限を回避しながら組み合わせることが可能か,という疑問を提起する。
この目的のために,「ソフト」畳み込み型インダクティブバイアスを具備できる位置的セルフアテンションの一形態であるゲート型位置自己アテンション(gpsa)を導入する。
gpsa層を初期化し、畳み込み層の局所性を模倣し、各注意頭に位置と内容情報に対する注意を規制するゲーティングパラメータを調整させ、局所性から逃れる自由を与える。
その結果、畳み込みのようなViTアーキテクチャであるConViTは、ImageNet上のDeiTよりも優れており、サンプル効率は大幅に改善されている。
学習における局所性の役割について,まずバニラ自己注意層でどのように促進されるかを定量化し,GPSA層でどのように回避されるかを分析する。
我々は,ConViTの成功をよりよく理解するために,様々な信念を提示して結論付ける。
私たちのコードとモデルは公開されています。
関連論文リスト
- A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Vision Transformers provably learn spatial structure [34.61885883486938]
ビジョントランスフォーマー(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)と同等または優れたパフォーマンスを達成した。
しかし、最近の研究によると、トレーニング損失を最小限に抑える一方で、ViTは特に空間的局所化パターンを学習している。
論文 参考訳(メタデータ) (2022-10-13T19:53:56Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。