論文の概要: SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications
- arxiv url: http://arxiv.org/abs/2303.15446v2
- Date: Tue, 25 Jul 2023 19:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 15:52:48.612123
- Title: SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications
- Title(参考訳): swiftformer:transformerベースのリアルタイムモバイルビジョンアプリケーションのための効率的な付加的注意
- Authors: Abdelrahman Shaker, Muhammad Maaz, Hanoona Rasheed, Salman Khan,
Ming-Hsuan Yang, Fahad Shahbaz Khan
- Abstract要約: 本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
- 参考スコア(独自算出の注目度): 98.90623605283564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention has become a defacto choice for capturing global context in
various vision applications. However, its quadratic computational complexity
with respect to image resolution limits its use in real-time applications,
especially for deployment on resource-constrained mobile devices. Although
hybrid approaches have been proposed to combine the advantages of convolutions
and self-attention for a better speed-accuracy trade-off, the expensive matrix
multiplication operations in self-attention remain a bottleneck. In this work,
we introduce a novel efficient additive attention mechanism that effectively
replaces the quadratic matrix multiplication operations with linear
element-wise multiplications. Our design shows that the key-value interaction
can be replaced with a linear layer without sacrificing any accuracy. Unlike
previous state-of-the-art methods, our efficient formulation of self-attention
enables its usage at all stages of the network. Using our proposed efficient
additive attention, we build a series of models called "SwiftFormer" which
achieves state-of-the-art performance in terms of both accuracy and mobile
inference speed. Our small variant achieves 78.5% top-1 ImageNet-1K accuracy
with only 0.8 ms latency on iPhone 14, which is more accurate and 2x faster
compared to MobileViT-v2. Code: https://github.com/Amshaker/SwiftFormer
- Abstract(参考訳): セルフアテンションは、様々なビジョンアプリケーションにおけるグローバルなコンテキストを捉えるためのデファクトの選択肢となっている。
しかしながら、画像解像度に関する2次計算の複雑さは、リアルタイムアプリケーション、特にリソース制約のあるモバイルデバイスへのデプロイにおいての使用を制限する。
畳み込みと自己アテンションの利点を併用して、より高速なトレードオフを実現するハイブリッドアプローチが提案されているが、自己アテンションにおける高価な行列乗算演算はボトルネックのままである。
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々の設計では、キーと値の相互作用は精度を犠牲にすることなく線形層に置き換えることができる。
従来の最先端手法とは異なり,ネットワークのあらゆる段階において,効率的な自己注意の定式化が可能となる。
提案する効率的な付加的注意を駆使して,精度とモバイル推論速度の両面で最先端のパフォーマンスを実現する"swiftformer"と呼ばれるモデルを構築した。
私たちの小さなバージョンは、iphone 14でわずか0.8msのレイテンシで78.5%のimagenet-1k精度を達成し、mobilevit-v2よりも2倍高速です。
コード: https://github.com/amshaker/swiftformer
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - EfficientViT: Memory Efficient Vision Transformer with Cascaded Group
Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。
既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。
この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:59:41Z) - FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization [14.707312504365376]
我々は、最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。
我々は,当社のモデルがCMTの3.5倍,EfficientNetの4.9倍,モバイルデバイスのConvNeXtの1.9倍で,ImageNetデータセットと同じ精度であることを示す。
論文 参考訳(メタデータ) (2023-03-24T17:58:32Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - MobileOne: An Improved One millisecond Mobile Backbone [14.041480018494394]
モバイルデバイス上に複数のモバイルフレンドリーなネットワークを配置することで、さまざまなメトリクスを分析します。
我々は,iPhone12で1ミリ秒未満の推論時間を実現した,効率的なバックボーンMobileOneを設計する。
我々はMobileOneが,モバイル上での処理速度を何倍にも向上しつつ,効率的なアーキテクチャ内での最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2022-06-08T17:55:11Z) - Separable Self-attention for Mobile Vision Transformers [34.32399598443582]
本稿では,線形複雑度を持つ分離型自己注意法,すなわち$O(k)$を提案する。
改良されたモデルであるMobileViTv2は、ImageNetオブジェクト分類やMS-COCOオブジェクト検出など、いくつかのモバイルビジョンタスクの最先端技術である。
論文 参考訳(メタデータ) (2022-06-06T15:31:35Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。