論文の概要: Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets
- arxiv url: http://arxiv.org/abs/2210.05958v1
- Date: Wed, 12 Oct 2022 06:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:18:40.133425
- Title: Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets
- Title(参考訳): 小さなデータセット上で視覚トランスフォーマーと畳み込みニューラルネットワークのギャップを埋める
- Authors: Zhiying Lu, Hongtao Xie, Chuanbin Liu, Yongdong Zhang
- Abstract要約: 小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 91.25055890980084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There still remains an extreme performance gap between Vision Transformers
(ViTs) and Convolutional Neural Networks (CNNs) when training from scratch on
small datasets, which is concluded to the lack of inductive bias. In this
paper, we further consider this problem and point out two weaknesses of ViTs in
inductive biases, that is, the spatial relevance and diverse channel
representation. First, on spatial aspect, objects are locally compact and
relevant, thus fine-grained feature needs to be extracted from a token and its
neighbors. While the lack of data hinders ViTs to attend the spatial relevance.
Second, on channel aspect, representation exhibits diversity on different
channels. But the scarce data can not enable ViTs to learn strong enough
representation for accurate recognition. To this end, we propose Dynamic Hybrid
Vision Transformer (DHVT) as the solution to enhance the two inductive biases.
On spatial aspect, we adopt a hybrid structure, in which convolution is
integrated into patch embedding and multi-layer perceptron module, forcing the
model to capture the token features as well as their neighboring features. On
channel aspect, we introduce a dynamic feature aggregation module in MLP and a
brand new "head token" design in multi-head self-attention module to help
re-calibrate channel representation and make different channel group
representation interacts with each other. The fusion of weak channel
representation forms a strong enough representation for classification. With
this design, we successfully eliminate the performance gap between CNNs and
ViTs, and our DHVT achieves a series of state-of-the-art performance with a
lightweight model, 85.68% on CIFAR-100 with 22.8M parameters, 82.3% on
ImageNet-1K with 24.0M parameters. Code is available at
https://github.com/ArieSeirack/DHVT.
- Abstract(参考訳): 小規模なデータセットでスクラッチからトレーニングを行う場合、視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では,この問題をさらに考慮し,帰納的バイアス,すなわち空間的妥当性と多様なチャネル表現におけるvitsの2つの弱点を指摘する。
まず、空間的な側面では、オブジェクトは局所的にコンパクトで関連するので、トークンとその近傍から細かな特徴を抽出する必要があります。
データ不足は、ViTが空間的関連性に到達するのを妨げます。
第2に、チャネルの側面において、表現は異なるチャネルに多様性を示す。
しかし、データが少ないため、ViTは正確な認識のための十分な表現を学べない。
そこで本稿では,2つの帰納バイアスを改善するための解として,動的ハイブリッドビジョン変換器(DHVT)を提案する。
空間的側面では、畳み込みをパッチ埋め込みと多層パーセプトロンモジュールに統合するハイブリッド構造を採用し、そのモデルがトークンの特徴と隣接する特徴をキャプチャすることを強制する。
チャネルの側面では、MLPの動的機能集約モジュールと、チャネル表現を再校正し、異なるチャネル群表現を相互に相互作用させるマルチヘッド自己アテンションモジュールに新しい"ヘッドトークン"設計を導入する。
弱いチャネル表現の融合は分類に十分強い表現を形成する。
この設計により、CNNとViTのパフォーマンスギャップを解消し、DHVTは、CIFAR-100で85.68%、22.8Mパラメータで82.3%、24.0MパラメータでImageNet-1Kで82.3%の軽量モデルで、一連の最先端性能を実現する。
コードはhttps://github.com/ArieSeirack/DHVT.comで入手できる。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision
Transformers [15.108494142240993]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。
小型VTを改良するための新しいチャネルシャッフルモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-09T11:56:35Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - Making Vision Transformers Truly Shift-Equivariant [20.61570323513044]
ビジョントランスフォーマー (ViT) は、コンピュータビジョンのためのディープネットアーキテクチャの1つとなっている。
トークン化,自己アテンション,パッチマージ,位置エンコーディングなど,各モジュールに対する新しいデータ適応設計を導入する。
画像分類とセマンティックセグメンテーションタスクにおける適応モデルの評価を行った。
論文 参考訳(メタデータ) (2023-05-25T17:59:40Z) - LightViT: Towards Light-Weight Convolution-Free Vision Transformers [43.48734363817069]
視覚変換器(ViT)は通常、畳み込みニューラルネットワーク(CNN)よりも軽量であると考えられている
コンボリューションを伴わない純粋な変圧器ブロック上での精度・効率バランスを改善するために,LightViT を軽量 ViT の新たなファミリとして提案する。
実験により,本モデルは画像分類,オブジェクト検出,セマンティックセグメンテーションタスクにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2022-07-12T14:27:57Z) - DaViT: Dual Attention Vision Transformers [94.62855697081079]
デュアルアテンションビジョン変換器(DaViT)について紹介する。
DaViTは、計算効率を維持しながらグローバルなコンテキストをキャプチャできるビジョントランスフォーマーアーキテクチャである。
我々は,DaViTが4つのタスクにおける最先端の性能を効率よく計算できることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。