論文の概要: Next-ViT: Next Generation Vision Transformer for Efficient Deployment in
Realistic Industrial Scenarios
- arxiv url: http://arxiv.org/abs/2207.05501v1
- Date: Tue, 12 Jul 2022 12:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 19:54:34.587224
- Title: Next-ViT: Next Generation Vision Transformer for Efficient Deployment in
Realistic Industrial Scenarios
- Title(参考訳): Next-ViT: 産業シナリオにおける効率的な展開のための次世代ビジョントランス
- Authors: Jiashi Li, Xin Xia, Wei Li, Huixia Li, Xing Wang, Xuefeng Xiao, Rui
Wang, Min Zheng, Xin Pan
- Abstract要約: ほとんどの視覚変換器(ViT)は、現実的な産業展開シナリオにおいて、畳み込みニューラルネットワーク(CNN)ほど効率的に動作できない。
現実的な産業シナリオ,すなわちNext-ViTにおける効率的な展開のための次世代ビジョントランスフォーマーを提案する。
Next-ViTはレイテンシ/精度トレードオフの観点からCNNとViTの両方を支配している。
- 参考スコア(独自算出の注目度): 19.94294348122248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the complex attention mechanisms and model design, most existing
vision Transformers (ViTs) can not perform as efficiently as convolutional
neural networks (CNNs) in realistic industrial deployment scenarios, e.g.
TensorRT and CoreML. This poses a distinct challenge: Can a visual neural
network be designed to infer as fast as CNNs and perform as powerful as ViTs?
Recent works have tried to design CNN-Transformer hybrid architectures to
address this issue, yet the overall performance of these works is far away from
satisfactory. To end these, we propose a next generation vision Transformer for
efficient deployment in realistic industrial scenarios, namely Next-ViT, which
dominates both CNNs and ViTs from the perspective of latency/accuracy
trade-off. In this work, the Next Convolution Block (NCB) and Next Transformer
Block (NTB) are respectively developed to capture local and global information
with deployment-friendly mechanisms. Then, Next Hybrid Strategy (NHS) is
designed to stack NCB and NTB in an efficient hybrid paradigm, which boosts
performance in various downstream tasks. Extensive experiments show that
Next-ViT significantly outperforms existing CNNs, ViTs and CNN-Transformer
hybrid architectures with respect to the latency/accuracy trade-off across
various vision tasks. On TensorRT, Next-ViT surpasses ResNet by 5.4 mAP (from
40.4 to 45.8) on COCO detection and 8.2% mIoU (from 38.8% to 47.0%) on ADE20K
segmentation under similar latency. Meanwhile, it achieves comparable
performance with CSWin, while the inference speed is accelerated by 3.6x. On
CoreML, Next-ViT surpasses EfficientFormer by 4.6 mAP (from 42.6 to 47.2) on
COCO detection and 3.5% mIoU (from 45.2% to 48.7%) on ADE20K segmentation under
similar latency. Code will be released recently.
- Abstract(参考訳): 複雑な注意機構とモデル設計のため、既存のビジョントランスフォーマー(vits)のほとんどは、tensorrtやcoremlなど、現実的な産業展開シナリオにおいて畳み込みニューラルネットワーク(cnns)ほど効率的に動作できない。
ビジュアルニューラルネットワークは、CNNと同じくらい高速に推論し、ViTと同じくらい強力に動作するように設計できますか?
最近の研究は、この問題に対処するためにCNN-Transformerハイブリッドアーキテクチャを設計しようと試みているが、これらの作業全体の性能は満足には程遠い。
そこで本研究では,遅延/精度トレードオフの観点からCNNとViTの両方を支配するNext-ViTという,現実的な産業シナリオにおける効率的なデプロイメントを実現する次世代ビジョントランスフォーマを提案する。
この作業では、Next Convolution Block (NCB) とNext Transformer Block (NTB) がそれぞれ開発され、ローカル情報とグローバル情報をデプロイに適したメカニズムでキャプチャする。
次に、Next Hybrid Strategy (NHS) は、様々な下流タスクのパフォーマンスを向上させる効率的なハイブリッドパラダイムとして、CBとNTBをスタックするように設計されている。
大規模な実験によると、Next-ViTは、様々なビジョンタスク間のレイテンシ/精度のトレードオフに関して、既存のCNN、ViT、CNN-Transformerハイブリッドアーキテクチャよりも大幅に優れている。
TensorRTでは、Next-ViTがResNetを5.4mAP(COCO検出では40.4から45.8)、ADE20Kセグメントでは8.2%mIoU(38.8%から47.0%)で上回っている。
一方、CSWinと同等の性能を達成し、推論速度は3.6倍に加速する。
CoreMLでは、Next-ViTがEfficientFormerを4.6mAP(42.6から47.2)でCOCO検出、ADE20Kセグメンテーションで3.5%mIoU(45.2%から48.7%)で上回っている。
コードは、最近リリースされる。
関連論文リスト
- RepNeXt: A Fast Multi-Scale CNN using Structural Reparameterization [8.346566205092433]
軽量畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、パラメータ効率と低レイテンシに好まれる。
本研究では,資源拘束型アプリケーションに適した多目的視覚バックボーンを開発するために,CNNとViTの相補的な利点について検討する。
論文 参考訳(メタデータ) (2024-06-23T04:11:12Z) - OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs [102.4965532024391]
Vision Transformer(ViT)とConvolution Neural Network(CNN)のハイブリッドディープモデルは、ビジョンタスクのための強力なバックボーンのクラスとして登場した。
高分解能入力に適した4段のViTから5段のViTにアップグレードしたHIgh-Resolution Inputs(HIRI-ViT)のハイブリッドバックボーンを提案する。
HiRI-ViTは448$times$448の入力でImageNetで84.3%の最高のTop-1精度を達成し、iFormer-Sの83.4%を224$timesで0.9%改善した。
論文 参考訳(メタデータ) (2024-03-18T17:34:29Z) - FMViT: A multiple-frequency mixing Vision Transformer [17.609263967586926]
FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案する。
このアプローチは、高周波の特徴と低周波の特徴を様々な周波数でブレンドし、ローカル情報とグローバル情報の両方を効果的に捉えることができる。
我々は、FMViTが既存のCNN、ViT、CNNTransformerのハイブリッドアーキテクチャを、様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることを実証した。
論文 参考訳(メタデータ) (2023-11-09T19:33:50Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - Convolutional Embedding Makes Hierarchical Vision Transformer Stronger [16.72943631060293]
ビジョントランスフォーマー(ViT)は近年、コンピュータビジョンタスクの領域を支配しているが、訓練データ効率の低下と、適切な帰納バイアスを伴わない局所意味表現能力の低下に悩まされている。
CNNは本質的に地域を意識したセマンティクスを捉え、研究者はCNNをViTのアーキテクチャに戻して、ViTに望ましい帰納的バイアスを与えるよう促す。
本稿では,ハイブリッドCNN/ViTのマクロアーキテクチャが階層型ViTの性能をいかに向上させるかを検討する。
論文 参考訳(メタデータ) (2022-07-27T06:36:36Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - SepViT: Separable Vision Transformer [20.403430632658946]
ビジョントランスフォーマーは、しばしば高い性能を達成するために膨大な計算コストを頼りにしており、リソースに制約のあるデバイスにデプロイするには負担がかかる。
我々は、深度的に分離可能な畳み込みから教訓を導き、そのイデオロギーを模倣して、効率的なトランスフォーマーバックボーン、すなわちSepViTと略される分離可能なビジョントランスを設計する。
SepViTは、深度的に分離可能な自己アテンションを通じて、ウィンドウ内およびウィンドウ間のローカル・グローバル情報インタラクションの実行を支援する。
論文 参考訳(メタデータ) (2022-03-29T09:20:01Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。