論文の概要: LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference
- arxiv url: http://arxiv.org/abs/2104.01136v1
- Date: Fri, 2 Apr 2021 16:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:46:12.880163
- Title: LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference
- Title(参考訳): LeViT: 高速推論のためのConvNetの衣服におけるビジョントランスフォーマー
- Authors: Ben Graham and Alaaeldin El-Nouby and Hugo Touvron and Pierre Stock
and Armand Joulin and Herv\'e J\'egou and Matthijs Douze
- Abstract要約: 高速システムにおける精度と効率のトレードオフを最適化する画像分類アーキテクチャのファミリーを設計します。
視覚変換器に位置情報を統合する新しい手法である注意バイアスを導入する。
全体として、LeViTは、スピード/精度のトレードオフに関して、既存のコンベットとビジョントランスを大幅に上回ります。
- 参考スコア(独自算出の注目度): 25.63398340113755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We design a family of image classification architectures that optimize the
trade-off between accuracy and efficiency in a high-speed regime. Our work
exploits recent findings in attention-based architectures, which are
competitive on highly parallel processing hardware. We re-evaluated principles
from the extensive literature on convolutional neural networks to apply them to
transformers, in particular activation maps with decreasing resolutions. We
also introduce the attention bias, a new way to integrate positional
information in vision transformers. As a result, we propose LeVIT: a hybrid
neural network for fast inference image classification. We consider different
measures of efficiency on different hardware platforms, so as to best reflect a
wide range of application scenarios. Our extensive experiments empirically
validate our technical choices and show they are suitable to most
architectures. Overall, LeViT significantly outperforms existing convnets and
vision transformers with respect to the speed/accuracy tradeoff. For example,
at 80\% ImageNet top-1 accuracy, LeViT is 3.3 times faster than EfficientNet on
the CPU.
- Abstract(参考訳): 我々は,高速システムにおける精度と効率のトレードオフを最適化する画像分類アーキテクチャ群を設計する。
本研究は,高度並列処理ハードウェアと競合する注目型アーキテクチャの最近の知見を活用する。
我々は、畳み込みニューラルネットワークに関する広範な文献から原則を再評価し、変換器、特に解像度を下げたアクティベーションマップに適用した。
また,視覚トランスフォーマーに位置情報を統合する新しい手法である注意バイアスについても紹介する。
その結果,高速な推論画像分類のためのハイブリッドニューラルネットワークLeVITを提案する。
幅広いアプリケーションシナリオを最もよく反映するために、異なるハードウェアプラットフォーム上での効率の異なる尺度を検討します。
私たちの広範な実験は、私たちの技術的な選択を実証的に検証し、ほとんどのアーキテクチャに適していることを示すものです。
全体として、LeViTは、速度/精度のトレードオフに関して、既存のコンブネットとビジョントランスフォーマーを著しく上回っている。
例えば、80\%のImageNet top-1精度で、LeViTはCPU上のEfficientNetの3.3倍高速である。
関連論文リスト
- PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - FasterViT: Fast Vision Transformers with Hierarchical Attention [63.50580266223651]
我々は、コンピュータビジョン(CV)アプリケーションのための高速スループットに焦点を当てた、FasterViTという名前のハイブリッドCNN-ViTニューラルネットワークの新たなファミリーを設計する。
新たに導入した階層的注意(HAT)アプローチは,グローバルな自己意識を2次複雑性で分解し,計算コストを削減した多面的注意に分解する。
論文 参考訳(メタデータ) (2023-06-09T18:41:37Z) - FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization [14.707312504365376]
我々は、最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。
我々は,当社のモデルがCMTの3.5倍,EfficientNetの4.9倍,モバイルデバイスのConvNeXtの1.9倍で,ImageNetデータセットと同じ精度であることを示す。
論文 参考訳(メタデータ) (2023-03-24T17:58:32Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - Fast-ParC: Capturing Position Aware Global Feature for ConvNets and ViTs [35.39701561076837]
本稿では,位置認識型円形畳み込み(ParC)と呼ばれるニューラルネットワーク演算子と,その高速化バージョンであるFast-ParCを提案する。
我々のFast-ParCは、Fast Fourier Transformを使用してParCのO(n2)時間をO(n log n)に短縮する。
実験の結果,ParC opは従来のConvNetの受容領域を効果的に拡大できることがわかった。
論文 参考訳(メタデータ) (2022-10-08T13:14:02Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - Rethinking the Design Principles of Robust Vision Transformer [28.538786330184642]
視覚トランスフォーマー (vit) は、従来の畳み込みニューラルネットワーク (cnns) をほとんどの視覚タスクで上回っていることを示した。
本稿では, ViTs の設計原理を堅牢性に基づいて再考する。
堅牢な設計部品を組み合わせることで、ロバストビジョントランス(RVT)を提案します。
論文 参考訳(メタデータ) (2021-05-17T15:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。