論文の概要: Separable Self-attention for Mobile Vision Transformers
- arxiv url: http://arxiv.org/abs/2206.02680v1
- Date: Mon, 6 Jun 2022 15:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 14:16:52.159088
- Title: Separable Self-attention for Mobile Vision Transformers
- Title(参考訳): 移動体視覚変換器の分離型自己注意
- Authors: Sachin Mehta and Mohammad Rastegari
- Abstract要約: 本稿では,線形複雑度を持つ分離型自己注意法,すなわち$O(k)$を提案する。
改良されたモデルであるMobileViTv2は、ImageNetオブジェクト分類やMS-COCOオブジェクト検出など、いくつかのモバイルビジョンタスクの最先端技術である。
- 参考スコア(独自算出の注目度): 34.32399598443582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile vision transformers (MobileViT) can achieve state-of-the-art
performance across several mobile vision tasks, including classification and
detection. Though these models have fewer parameters, they have high latency as
compared to convolutional neural network-based models. The main efficiency
bottleneck in MobileViT is the multi-headed self-attention (MHA) in
transformers, which requires $O(k^2)$ time complexity with respect to the
number of tokens (or patches) $k$. Moreover, MHA requires costly operations
(e.g., batch-wise matrix multiplication) for computing self-attention,
impacting latency on resource-constrained devices. This paper introduces a
separable self-attention method with linear complexity, i.e. $O(k)$. A simple
yet effective characteristic of the proposed method is that it uses
element-wise operations for computing self-attention, making it a good choice
for resource-constrained devices. The improved model, MobileViTv2, is
state-of-the-art on several mobile vision tasks, including ImageNet object
classification and MS-COCO object detection. With about three million
parameters, MobileViTv2 achieves a top-1 accuracy of 75.6% on the ImageNet
dataset, outperforming MobileViT by about 1% while running $3.2\times$ faster
on a mobile device.
Our source code is available at: \url{https://github.com/apple/ml-cvnets}
- Abstract(参考訳): モバイルビジョントランスフォーマー(MobileViT)は、分類や検出を含むいくつかのモバイルビジョンタスクで最先端のパフォーマンスを達成することができる。
これらのモデルはパラメータが少ないが、畳み込みニューラルネットワークベースのモデルに比べてレイテンシが高い。
mobilevitの主な効率のボトルネックは、トランスフォーマーのマルチヘッドセルフアテンション(mha)であり、トークン数(またはパッチ数)$k$に対して、o(k^2)$の時間複雑性を必要とする。
さらに、mhaは、リソース制約されたデバイスでのレイテンシに影響を与える自己アテンションを計算するために、コストのかかる操作(バッチ単位の行列の乗算など)を必要とする。
本稿では,線形複雑性を持つ分離自着法,すなわち$o(k)$を提案する。
提案手法の単純かつ効果的な特徴は、自己注意の計算に要素演算を用いることであり、資源制約のあるデバイスに好適な選択である。
改良されたモデルであるMobileViTv2は、ImageNetオブジェクト分類やMS-COCOオブジェクト検出など、いくつかのモバイルビジョンタスクの最先端技術である。
約300万のパラメータを持つMobileViTv2は、ImageNetデータセットで75.6%のトップ1の精度を達成し、MobileViTを約1%上回り、モバイルデバイスで3.2\times$高速に動作している。
ソースコードは \url{https://github.com/apple/ml-cvnets} で利用可能です。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - MobileOne: An Improved One millisecond Mobile Backbone [14.041480018494394]
モバイルデバイス上に複数のモバイルフレンドリーなネットワークを配置することで、さまざまなメトリクスを分析します。
我々は,iPhone12で1ミリ秒未満の推論時間を実現した,効率的なバックボーンMobileOneを設計する。
我々はMobileOneが,モバイル上での処理速度を何倍にも向上しつつ,効率的なアーキテクチャ内での最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2022-06-08T17:55:11Z) - MoCoViT: Mobile Convolutional Vision Transformer [13.233314183471213]
モバイル・コンボリューショナル・ビジョン・トランスフォーマー(MoCoViT)を提案する。
MoCoViTは、モバイルデバイス向けに慎重に設計されており、非常に軽量で、2つの主要な修正によって実現されている。
総合的な実験により、提案したMoCoViTファミリーは、様々な視覚タスクにおいて、最先端のポータブルCNNやトランスフォーマーより優れていることが検証された。
論文 参考訳(メタデータ) (2022-05-25T10:21:57Z) - TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation [111.8342799044698]
textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。
提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。
ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
論文 参考訳(メタデータ) (2022-04-12T04:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。