論文の概要: Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision
Transformers
- arxiv url: http://arxiv.org/abs/2310.05642v1
- Date: Mon, 9 Oct 2023 11:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 05:09:50.058536
- Title: Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision
Transformers
- Title(参考訳): plug n' play: 小さな視覚トランスフォーマーを強化するためのチャンネルシャッフルモジュール
- Authors: Xuwei Xu, Sen Wang, Yudong Chen, Jiajun Liu
- Abstract要約: 視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。
小型VTを改良するための新しいチャネルシャッフルモジュールを提案する。
- 参考スコア(独自算出の注目度): 15.108494142240993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have demonstrated remarkable performance in
various computer vision tasks. However, the high computational complexity
hinders ViTs' applicability on devices with limited memory and computing
resources. Although certain investigations have delved into the fusion of
convolutional layers with self-attention mechanisms to enhance the efficiency
of ViTs, there remains a knowledge gap in constructing tiny yet effective ViTs
solely based on the self-attention mechanism. Furthermore, the straightforward
strategy of reducing the feature channels in a large but outperforming ViT
often results in significant performance degradation despite improved
efficiency. To address these challenges, we propose a novel channel shuffle
module to improve tiny-size ViTs, showing the potential of pure self-attention
models in environments with constrained computing resources. Inspired by the
channel shuffle design in ShuffleNetV2 \cite{ma2018shufflenet}, our module
expands the feature channels of a tiny ViT and partitions the channels into two
groups: the \textit{Attended} and \textit{Idle} groups. Self-attention
computations are exclusively employed on the designated \textit{Attended}
group, followed by a channel shuffle operation that facilitates information
exchange between the two groups. By incorporating our module into a tiny ViT,
we can achieve superior performance while maintaining a comparable
computational complexity to the vanilla model. Specifically, our proposed
channel shuffle module consistently improves the top-1 accuracy on the
ImageNet-1K dataset for various tiny ViT models by up to 2.8\%, with the
changes in model complexity being less than 0.03 GMACs.
- Abstract(参考訳): 視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
しかし、高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。
ある種の研究は、ViTsの効率を高めるための自己保持機構と畳み込み層の融合を掘り下げてきたが、自己保持機構のみに基づく小さなが効果的なViTsを構築する際には、知識ギャップが残っている。
さらに、ViTを大幅に上回る機能チャネルを減らすという直接的な戦略は、効率が向上したにもかかわらず、大きなパフォーマンス低下をもたらすことが多い。
これらの課題に対処するため、制約のある計算資源を持つ環境において、純粋な自己注意モデルの可能性を示すため、小型のViTを改善するための新しいチャネルシャッフルモジュールを提案する。
ShuffleNetV2 \cite{ma2018shufflenet} のチャネルシャッフル設計にインスパイアされた我々のモジュールは、小さな ViT の機能チャネルを拡張し、チャネルを \textit{Attended} と \textit{Idle} の2つのグループに分割する。
セルフアテンション計算は指定された \textit{attended} グループでのみ用いられ、続いて2つのグループ間の情報交換を容易にするチャネルシャッフル演算が実行される。
モジュールを小さなViTに組み込むことで,バニラモデルに匹敵する計算複雑性を維持しながら,優れたパフォーマンスを実現することができる。
特に,提案するチャネルシャッフルモジュールは,様々な小型vitモデルに対するimagenet-1kデータセットのtop-1精度を最大2.8\%向上させ,モデルの複雑さは0.03 gmac以下である。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。