論文の概要: Head-Free Lightweight Semantic Segmentation with Linear Transformer
- arxiv url: http://arxiv.org/abs/2301.04648v1
- Date: Wed, 11 Jan 2023 18:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 17:12:31.465822
- Title: Head-Free Lightweight Semantic Segmentation with Linear Transformer
- Title(参考訳): リニアトランスを用いたヘッドフリー軽量意味セグメンテーション
- Authors: Bo Dong and Pichao Wang and Fan Wang
- Abstract要約: 本稿では,適応周波数変換器(Adaptive Frequency Transformer)というセマンティックセグメンテーションのためのヘッドフリー軽量アーキテクチャを提案する。
並列アーキテクチャを採用して、デコーダを置き換える特定の学習可能なローカル記述としてプロトタイプ表現を活用する。
デコーダの除去は計算の大部分を圧縮するが、並列構造の精度は依然として低い計算資源によって制限されている。
- 参考スコア(独自算出の注目度): 21.38163906180886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing semantic segmentation works have been mainly focused on designing
effective decoders; however, the computational load introduced by the overall
structure has long been ignored, which hinders their applications on
resource-constrained hardwares. In this paper, we propose a head-free
lightweight architecture specifically for semantic segmentation, named Adaptive
Frequency Transformer. It adopts a parallel architecture to leverage prototype
representations as specific learnable local descriptions which replaces the
decoder and preserves the rich image semantics on high-resolution features.
Although removing the decoder compresses most of the computation, the accuracy
of the parallel structure is still limited by low computational resources.
Therefore, we employ heterogeneous operators (CNN and Vision Transformer) for
pixel embedding and prototype representations to further save computational
costs. Moreover, it is very difficult to linearize the complexity of the vision
Transformer from the perspective of spatial domain. Due to the fact that
semantic segmentation is very sensitive to frequency information, we construct
a lightweight prototype learning block with adaptive frequency filter of
complexity $O(n)$ to replace standard self attention with $O(n^{2})$. Extensive
experiments on widely adopted datasets demonstrate that our model achieves
superior accuracy while retaining only 3M parameters. On the ADE20K dataset,
our model achieves 41.8 mIoU and 4.6 GFLOPs, which is 4.4 mIoU higher than
Segformer, with 45% less GFLOPs. On the Cityscapes dataset, our model achieves
78.7 mIoU and 34.4 GFLOPs, which is 2.5 mIoU higher than Segformer with 72.5%
less GFLOPs. Code is available at https://github.com/dongbo811/AFFormer.
- Abstract(参考訳): 既存のセマンティックセグメンテーションは、主に効果的なデコーダの設計に重点を置いているが、全体的な構造によって引き起こされる計算負荷は長い間無視され、リソース制約のあるハードウェアへの応用を妨げる。
本稿では,セマンティクスセグメンテーションに特化したヘッドフリー軽量アーキテクチャであるadaptive frequency transformerを提案する。
並列アーキテクチャを採用し、プロトタイプ表現を特定の学習可能なローカル記述として活用し、デコーダを置き換え、高分解能機能でリッチイメージセマンティクスを保存する。
デコーダの除去は計算のほとんどを圧縮するが、並列構造の精度は低い計算資源によって依然として制限されている。
そこで我々は,画素埋め込みとプロトタイプ表現に不均一演算子(CNNとVision Transformer)を用い,計算コストをさらに削減した。
さらに,空間領域の観点から視覚トランスフォーマの複雑さを線形化するのは非常に困難である。
セマンティックセグメンテーションは周波数情報に非常に敏感なため、標準的な自己注意を$O(n^{2})$に置き換えるために、複雑性の適応周波数フィルタを持つ軽量なプロトタイプ学習ブロックを構築した。
広く採用されているデータセットに対する大規模な実験により、我々のモデルは3Mパラメータのみを保持しながら優れた精度を達成できることを示した。
ADE20Kデータセットでは、Segformerよりも4.4mIoU高い41.8mIoUと4.6GFLOPが達成され、GFLOPは45%少ない。
Cityscapesのデータセットでは、GFLOPsは78.7mIoU、GFLOPsは34.4mIoUであり、Segformerより2.5mIoU高く、GFLOPsは72.5%少ない。
コードはhttps://github.com/dongbo811/afformerで入手できる。
関連論文リスト
- MobileUNETR: A Lightweight End-To-End Hybrid Vision Transformer For Efficient Medical Image Segmentation [0.12499537119440242]
皮膚がんのセグメンテーションは、医療画像解析において重要な課題である。
MobileUNETRは、CNNとTransformerの両方のパフォーマンス制約を克服することを目指している。
MobileUNETRは300万のパラメータと1.3 GFLOPの計算複雑性で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-04T20:23:37Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - MUSTER: A Multi-scale Transformer-based Decoder for Semantic Segmentation [19.83103856355554]
MUSTERはトランスフォーマーベースのデコーダで、階層エンコーダとシームレスに統合される。
MSKAユニットはエンコーダとデコーダからのマルチスケール機能の融合を可能にし、包括的な情報統合を容易にする。
ADE20Kデータセットでは,50.23の単一スケールmIoUと51.88のマルチスケールmIoUを達成する。
論文 参考訳(メタデータ) (2022-11-25T06:51:07Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - SegFormer: Simple and Efficient Design for Semantic Segmentation with
Transformers [79.646577541655]
我々は,トランスフォーマーを軽量多層認識(MLP)デコーダと統合するセマンティックセグメンテーションフレームワークであるSegFormerを提案する。
SegFormerは、マルチスケール機能を出力する、新しく構造化されたエンコーダで構成されている。
提案するデコーダは,異なるレイヤからの情報を集約し,局所的な注意とグローバルな注意の両方を強力な表現に結合する。
論文 参考訳(メタデータ) (2021-05-31T17:59:51Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - CoDeNet: Efficient Deployment of Input-Adaptive Object Detection on
Embedded FPGAs [41.43273142203345]
FPGAの柔軟性を利用して、変形可能な畳み込みを伴う新しいオブジェクト検出パイプラインを開発する。
高効率実装では、ソリューションは毎秒26.9フレームに達し、小さなモデルサイズは0.76MBである。
我々のモデルはPascal VOCで67.1 AP50に達し、パラメータは20.9倍小さいがTiny-YOLOより10%正確である。
論文 参考訳(メタデータ) (2020-06-12T17:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。