論文の概要: LightViT: Towards Light-Weight Convolution-Free Vision Transformers
- arxiv url: http://arxiv.org/abs/2207.05557v1
- Date: Tue, 12 Jul 2022 14:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 18:01:42.667769
- Title: LightViT: Towards Light-Weight Convolution-Free Vision Transformers
- Title(参考訳): LightViT:軽量コンボリューションフリービジョントランスを目指して
- Authors: Tao Huang, Lang Huang, Shan You, Fei Wang, Chen Qian, Chang Xu
- Abstract要約: 視覚変換器(ViT)は通常、畳み込みニューラルネットワーク(CNN)よりも軽量であると考えられている
コンボリューションを伴わない純粋な変圧器ブロック上での精度・効率バランスを改善するために,LightViT を軽量 ViT の新たなファミリとして提案する。
実験により,本モデルは画像分類,オブジェクト検出,セマンティックセグメンテーションタスクにおいて大幅な改善が得られた。
- 参考スコア(独自算出の注目度): 43.48734363817069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) are usually considered to be less light-weight
than convolutional neural networks (CNNs) due to the lack of inductive bias.
Recent works thus resort to convolutions as a plug-and-play module and embed
them in various ViT counterparts. In this paper, we argue that the
convolutional kernels perform information aggregation to connect all tokens;
however, they would be actually unnecessary for light-weight ViTs if this
explicit aggregation could function in a more homogeneous way. Inspired by
this, we present LightViT as a new family of light-weight ViTs to achieve
better accuracy-efficiency balance upon the pure transformer blocks without
convolution. Concretely, we introduce a global yet efficient aggregation scheme
into both self-attention and feed-forward network (FFN) of ViTs, where
additional learnable tokens are introduced to capture global dependencies; and
bi-dimensional channel and spatial attentions are imposed over token
embeddings. Experiments show that our model achieves significant improvements
on image classification, object detection, and semantic segmentation tasks. For
example, our LightViT-T achieves 78.7% accuracy on ImageNet with only 0.7G
FLOPs, outperforming PVTv2-B0 by 8.2% while 11% faster on GPU. Code is
available at https://github.com/hunto/LightViT.
- Abstract(参考訳): 視覚変換器(ViT)は通常、誘導バイアスがないため、畳み込みニューラルネットワーク(CNN)よりも軽量であると考えられている。
近年の作業では、プラグイン・アンド・プレイモジュールとしての畳み込みを利用して、様々なViTモジュールに組み込んでいる。
本稿では、畳み込みカーネルが全てのトークンを接続するために情報集約を行うと論じるが、この明示的な集約がより均質な方法で機能すれば、実際には軽量なViTでは不要である。
そこで我々はLightViTを軽量ViTの新たなファミリとして紹介し,コンボリューションを伴わない純粋変圧器ブロックの精度・効率バランスを改善する。
具体的には,VTの自己注意型およびフィードフォワード型ネットワーク(FFN)にグローバルかつ効率的なアグリゲーションスキームを導入し,グローバルな依存を捉えるために新たな学習可能なトークンを導入し,トークン埋め込みよりも二次元チャネルと空間的注意を課す。
実験により,本モデルは画像分類,オブジェクト検出,セマンティックセグメンテーションタスクにおいて大幅な改善が得られた。
例えば、私たちのLightViT-Tは、わずか0.7GのFLOPでImageNet上で78.7%の精度を実現しています。
コードはhttps://github.com/hunto/lightvitで入手できる。
関連論文リスト
- Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets [11.95214938154427]
Vision Transformer (ViT)は、イメージをパッチに分割することで、グローバルな情報をキャプチャする。
ViTは、画像やビデオデータセットのトレーニング中に誘導バイアスを欠く。
本稿では,ViTモデルのショートカットとして,軽量なDepth-Wise Convolutionモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-28T04:23:40Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - EIT: Efficiently Lead Inductive Biases to ViT [17.66805405320505]
ViT(Vision Transformer)は、畳み込みニューラルネットワークに固有の帰納バイアスに類似した特性に依存する。
本稿では, インダクティブバイアスをViT(EIT)に効率よく導くアーキテクチャを提案し, インダクティブバイアスをViTの両相に効果的に導くことができる。
ViTと比較して4つの一般的な小規模データセットでは、EITは平均12.6%の精度向上であり、パラメータやFLOPは少ない。
論文 参考訳(メタデータ) (2022-03-14T14:01:17Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。