論文の概要: CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications
- arxiv url: http://arxiv.org/abs/2408.03703v1
- Date: Wed, 7 Aug 2024 11:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:14:23.083725
- Title: CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications
- Title(参考訳): CAS-ViT:効率的なモバイルアプリケーションのための畳み込み付加型自己注意型視覚変換器
- Authors: Tianfang Zhang, Lei Li, Yang Zhou, Wentao Liu, Chen Qian, Xiangyang Ji,
- Abstract要約: ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
- 参考スコア(独自算出の注目度): 59.193626019860226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) mark a revolutionary advance in neural networks with their token mixer's powerful global context capability. However, the pairwise token affinity and complex matrix operations limit its deployment on resource-constrained scenarios and real-time applications, such as mobile devices, although considerable efforts have been made in previous works. In this paper, we introduce CAS-ViT: Convolutional Additive Self-attention Vision Transformers, to achieve a balance between efficiency and performance in mobile applications. Firstly, we argue that the capability of token mixers to obtain global contextual information hinges on multiple information interactions, such as spatial and channel domains. Subsequently, we construct a novel additive similarity function following this paradigm and present an efficient implementation named Convolutional Additive Token Mixer (CATM). This simplification leads to a significant reduction in computational overhead. We evaluate CAS-ViT across a variety of vision tasks, including image classification, object detection, instance segmentation, and semantic segmentation. Our experiments, conducted on GPUs, ONNX, and iPhones, demonstrate that CAS-ViT achieves a competitive performance when compared to other state-of-the-art backbones, establishing it as a viable option for efficient mobile vision applications. Our code and model are available at: \url{https://github.com/Tianfang-Zhang/CAS-ViT}
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
しかしながら、ペアワイズトークン親和性と複雑なマトリックス操作は、リソースに制約のあるシナリオやモバイルデバイスのようなリアルタイムアプリケーションへのデプロイを制限するが、以前の研究でかなりの努力がなされた。
本稿では,CAS-ViT: Convolutional Additive Self-attention Vision Transformersを提案する。
まず、トークンミキサーがグローバルなコンテキスト情報を得る能力は、空間ドメインやチャネルドメインなど、複数の情報相互作用に依存していると議論する。
その後、このパラダイムに従って新たな付加的類似性関数を構築し、CATM(Convolutional Additive Token Mixer)と呼ばれる効率的な実装を提案する。
この単純化により、計算オーバーヘッドが大幅に減少する。
画像分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,さまざまな視覚タスクを対象としたCAS-ViTの評価を行った。
GPU、ONNX、iPhoneで実施した実験では、CAS-ViTは他の最先端のバックボーンと比較して競争性能が向上し、効率的なモバイルビジョンアプリケーションのための実行可能な選択肢として確立された。
我々のコードとモデルは以下の通りである。
関連論文リスト
- ContextFormer: Redefining Efficiency in Semantic Segmentation [46.06496660333768]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - NiNformer: A Network in Network Transformer with Token Mixing as a Gating Function Generator [1.3812010983144802]
このアテンション機構はコンピュータビジョンでビジョントランスフォーマー ViT として使用された。
コストがかかり、効率的な最適化のためにかなりのサイズのデータセットを必要とするという欠点がある。
本稿では,新しい計算ブロックを標準ViTブロックの代替として導入し,計算負荷を削減する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - TiC: Exploring Vision Transformer in Convolution [37.50285921899263]
マルチヘッド・セルフアテンション・コンボリューション(MSA-Conv)を提案する。
MSA-Convは、標準、拡張された、深みのあるものを含む一般的な畳み込みの中に自己認識を組み込んでいる。
本稿では,MSA-Convを用いた画像分類の概念実証として,TiC(Vision Transformer in Convolution)を提案する。
論文 参考訳(メタデータ) (2023-10-06T10:16:26Z) - SeaFormer++: Squeeze-enhanced Axial Transformer for Mobile Visual Recognition [29.522565659389183]
本研究では,モバイル視覚認識のための圧縮強化軸変換器 (SeaFormer) を提案する。
モバイルフレンドリーなライバルとTransformerベースのライバルに勝って、パフォーマンスが良く、レイテンシも低い。
論文 参考訳(メタデータ) (2023-01-30T18:34:16Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。