Fugu-MT 論文翻訳(概要): Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision Transformers

論文の概要: Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision Transformers

arxiv url: http://arxiv.org/abs/2310.05642v1
Date: Mon, 9 Oct 2023 11:56:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 05:09:50.058536
Title: Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision Transformers
Title（参考訳）: plug n' play: 小さな視覚トランスフォーマーを強化するためのチャンネルシャッフルモジュール
Authors: Xuwei Xu, Sen Wang, Yudong Chen, Jiajun Liu
Abstract要約: 視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。小型VTを改良するための新しいチャネルシャッフルモジュールを提案する。
参考スコア（独自算出の注目度）: 15.108494142240993
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Transformers (ViTs) have demonstrated remarkable performance in various computer vision tasks. However, the high computational complexity hinders ViTs' applicability on devices with limited memory and computing resources. Although certain investigations have delved into the fusion of convolutional layers with self-attention mechanisms to enhance the efficiency of ViTs, there remains a knowledge gap in constructing tiny yet effective ViTs solely based on the self-attention mechanism. Furthermore, the straightforward strategy of reducing the feature channels in a large but outperforming ViT often results in significant performance degradation despite improved efficiency. To address these challenges, we propose a novel channel shuffle module to improve tiny-size ViTs, showing the potential of pure self-attention models in environments with constrained computing resources. Inspired by the channel shuffle design in ShuffleNetV2 \cite{ma2018shufflenet}, our module expands the feature channels of a tiny ViT and partitions the channels into two groups: the \textit{Attended} and \textit{Idle} groups. Self-attention computations are exclusively employed on the designated \textit{Attended} group, followed by a channel shuffle operation that facilitates information exchange between the two groups. By incorporating our module into a tiny ViT, we can achieve superior performance while maintaining a comparable computational complexity to the vanilla model. Specifically, our proposed channel shuffle module consistently improves the top-1 accuracy on the ImageNet-1K dataset for various tiny ViT models by up to 2.8\%, with the changes in model complexity being less than 0.03 GMACs.
Abstract（参考訳）: 視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。しかし、高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。ある種の研究は、ViTsの効率を高めるための自己保持機構と畳み込み層の融合を掘り下げてきたが、自己保持機構のみに基づく小さなが効果的なViTsを構築する際には、知識ギャップが残っている。さらに、ViTを大幅に上回る機能チャネルを減らすという直接的な戦略は、効率が向上したにもかかわらず、大きなパフォーマンス低下をもたらすことが多い。これらの課題に対処するため、制約のある計算資源を持つ環境において、純粋な自己注意モデルの可能性を示すため、小型のViTを改善するための新しいチャネルシャッフルモジュールを提案する。 ShuffleNetV2 \cite{ma2018shufflenet} のチャネルシャッフル設計にインスパイアされた我々のモジュールは、小さな ViT の機能チャネルを拡張し、チャネルを \textit{Attended} と \textit{Idle} の2つのグループに分割する。セルフアテンション計算は指定された \textit{attended} グループでのみ用いられ、続いて2つのグループ間の情報交換を容易にするチャネルシャッフル演算が実行される。モジュールを小さなViTに組み込むことで,バニラモデルに匹敵する計算複雑性を維持しながら,優れたパフォーマンスを実現することができる。特に,提案するチャネルシャッフルモジュールは,様々な小型vitモデルに対するimagenet-1kデータセットのtop-1精度を最大2.8\%向上させ,モデルの複雑さは0.03 gmac以下である。

関連論文リスト

High-Fidelity Differential-information Driven Binary Vision Transformer [38.19452875887032]
ビジョントランスフォーマーのバイナリ化(ViT)は、高い計算/ストレージ要求とエッジデバイスデプロイメントの制約の間のトレードオフに対処する、有望なアプローチを提供する。本稿では,従来の ViT アーキテクチャと計算効率を両立させながら,高情報化が可能な新しいバイナリ ViT である DIDB-ViT を提案する。
論文参考訳（メタデータ） (2025-07-03T00:59:53Z)
Your ViT is Secretly an Image Segmentation Model [50.71238842539735]
Vision Transformer (ViT) は、様々なコンピュータビジョンタスクにおいて、顕著なパフォーマンスとスケーラビリティを示している。タスク固有のコンポーネントによって導入された帰納バイアスは、代わりにViT自身で学習できることを示す。画像セグメンテーションを行うためにプレーンな ViT アーキテクチャを再利用した Mask Transformer (EoMT) を導入する。
論文参考訳（メタデータ） (2025-03-24T19:56:02Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。 ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
視覚知覚タスクは、その有効性にもかかわらず、主にViTによって解決される。その効果にもかかわらず、ViTは自己注意の計算の複雑さのために計算のボトルネックに直面している。構築した自己意識を近似するFibottention Architectureを提案する。
論文参考訳（メタデータ） (2024-06-27T17:59:40Z)
CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文参考訳（メタデータ） (2023-09-27T16:12:07Z)
A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。 FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文参考訳（メタデータ） (2022-12-23T19:13:43Z)
Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-10-12T06:54:39Z)
Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文参考訳（メタデータ） (2021-11-24T16:48:57Z)
Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。 DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文参考訳（メタデータ） (2021-10-10T18:04:59Z)
DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文参考訳（メタデータ） (2021-03-22T14:32:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。