論文の概要: ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding
- arxiv url: http://arxiv.org/abs/2403.15004v2
- Date: Tue, 01 Oct 2024 02:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:19.040084
- Title: ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding
- Title(参考訳): ParFormer: 並列ミキサーとスパースチャネルアテンションパッチ埋め込みを備えたビジョントランス
- Authors: Novendra Setyawan, Ghufron Wahyu Kurniawan, Chi-Chia Sun, Jun-Wei Hsieh, Jing-Ming Guo, Wen-Kai Kuo,
- Abstract要約: 本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
- 参考スコア(独自算出の注目度): 9.144813021145039
- License:
- Abstract: Convolutional Neural Networks (CNNs) and Transformers have achieved remarkable success in computer vision tasks. However, their deep architectures often lead to high computational redundancy, making them less suitable for resource-constrained environments, such as edge devices. This paper introduces ParFormer, a novel vision transformer that addresses this challenge by incorporating a Parallel Mixer and a Sparse Channel Attention Patch Embedding (SCAPE). By combining convolutional and attention mechanisms, ParFormer improves feature extraction. This makes spatial feature extraction more efficient and cuts down on unnecessary computation. The SCAPE module further reduces computational redundancy while preserving essential feature information during down-sampling. Experimental results on the ImageNet-1K dataset show that ParFormer-T achieves 78.9\% Top-1 accuracy with a high throughput on a GPU that outperforms other small models with 2.56$\times$ higher throughput than MobileViT-S, 0.24\% faster than FasterNet-T2, and 1.79$\times$ higher than EdgeNeXt-S. For edge device deployment, ParFormer-T excels with a throughput of 278.1 images/sec, which is 1.38 $\times$ higher than EdgeNeXt-S and 2.36$\times$ higher than MobileViT-S, making it highly suitable for real-time applications in resource-constrained settings. The larger variant, ParFormer-L, reaches 83.5\% Top-1 accuracy, offering a balanced trade-off between accuracy and efficiency, surpassing many state-of-the-art models. In COCO object detection, ParFormer-M achieves 40.7 AP for object detection and 37.6 AP for instance segmentation, surpassing models like ResNet-50, PVT-S and PoolFormer-S24 with significantly higher efficiency. These results validate ParFormer as a highly efficient and scalable model for both high-performance and resource-constrained scenarios, making it an ideal solution for edge-based AI applications.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、コンピュータビジョンタスクにおいて驚くべき成功を収めた。
しかし、その深いアーキテクチャはしばしば高い計算冗長性をもたらし、エッジデバイスのようなリソース制約のある環境には適さない。
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込むことにより、この課題に対処する新しいビジョントランスフォーマーであるParFormerを紹介する。
畳み込みとアテンションのメカニズムを組み合わせることで、ParFormerは機能抽出を改善した。
これにより空間的特徴抽出がより効率的になり、不要な計算を削減できる。
SCAPEモジュールは、ダウンサンプリング中に重要な特徴情報を保存しながら、計算の冗長性をさらに低減する。
ImageNet-1Kデータセットの実験結果によると、ParFormer-Tは、GPU上の高いスループットで78.9\%のTop-1を達成し、MobileViT-Sより2.56$\times$高いスループット、FasterNet-T2より0.24\%、EdgeNeXt-Sより1.79$\times$高いスループットを実現している。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sより1.38ドル、MobileViT-Sより2.36ドル高い。
より大きな派生型であるParFormer-Lは83.5\%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供し、多くの最先端モデルを上回っている。
COCOオブジェクト検出では、ParFormer-Mはオブジェクト検出の40.7 AP、インスタンスセグメンテーションの37.6 APを達成し、ResNet-50、PVT-S、PoolFormer-S24といったモデルをはるかに高い効率で上回っている。
これらの結果からParFormerは,高性能シナリオとリソース制約シナリオの両方を対象とした,高効率でスケーラブルなモデルとして評価され,エッジベースのAIアプリケーションに理想的なソリューションとなる。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - SeTformer is What You Need for Vision and Language [26.036537788653373]
自己最適化輸送(SeT)は、より良い性能と計算効率を実現するための新しいトランスフォーマーである。
SeTformerは、ImageNet-1Kで84.7%、86.2%という印象的なトップ1アキュラシーを達成した。
SeTformerはGLUEベンチマークで言語モデリングの最先端の結果も達成している。
論文 参考訳(メタデータ) (2024-01-07T16:52:49Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - EdgeFormer: Improving Light-weight ConvNets by Learning from Vision
Transformers [29.09883780571206]
We propose EdgeFormer, a pure ConvNet based backbone model。
我々は、大域的な円形の畳み込み(GCC)と、軽量な畳み込みオペである位置埋め込みを組み合わせる。
実験の結果,提案するEdgeFormerは,一般的な軽量なConvNetやビジョントランスフォーマーベースモデルよりも優れた性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-03-08T09:25:17Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Pipeline Parallelism for Inference on Heterogeneous Edge Computing [9.745025902229882]
コンピュータビジョン(CV)と自然言語処理(NLP)におけるタスクの最先端結果を実現するモデルサイズが大きいディープニューラルネットワーク
これらの大規模モデルは、リソース制約のあるエッジデバイスには計算集約的すぎるか、メモリ集約的すぎる。
パイプライン並列性を使用して推論を高速化し、単一エッジデバイスに適合しない大規模なモデルの実行を可能にするエッジシステム用の分散フレームワークであるEdgePipeを提案する。
論文 参考訳(メタデータ) (2021-10-28T05:20:51Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。