論文の概要: SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2301.13156v1
- Date: Mon, 30 Jan 2023 18:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 13:20:38.449778
- Title: SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic
Segmentation
- Title(参考訳): seaformer:モバイルセマンティクスセグメンテーションのためのスクイーズエンハンスエンハンスド軸トランス
- Authors: Qiang Wan, Zilong Huang, Jiachen Lu, Gang Yu, Li Zhang
- Abstract要約: 本研究では,モバイルセマンティックセグメンテーションのための圧縮強化Axial TransFormer(SeaFormer)を提案する。
モバイルフレンドリーなライバルとTransformerベースのライバルに勝って、パフォーマンスが良く、レイテンシも低い。
- 参考スコア(独自算出の注目度): 27.827220515999585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the introduction of Vision Transformers, the landscape of many computer
vision tasks (e.g., semantic segmentation), which has been overwhelmingly
dominated by CNNs, recently has significantly revolutionized. However, the
computational cost and memory requirement render these methods unsuitable on
the mobile device, especially for the high-resolution per-pixel semantic
segmentation task. In this paper, we introduce a new method squeeze-enhanced
Axial TransFormer (SeaFormer) for mobile semantic segmentation. Specifically,
we design a generic attention block characterized by the formulation of squeeze
Axial and detail enhancement. It can be further used to create a family of
backbone architectures with superior cost-effectiveness. Coupled with a light
segmentation head, we achieve the best trade-off between segmentation accuracy
and latency on the ARM-based mobile devices on the ADE20K and Cityscapes
datasets. Critically, we beat both the mobile-friendly rivals and
Transformer-based counterparts with better performance and lower latency
without bells and whistles. Beyond semantic segmentation, we further apply the
proposed SeaFormer architecture to image classification problem, demonstrating
the potentials of serving as a versatile mobile-friendly backbone.
- Abstract(参考訳): 視覚トランスフォーマーの導入以来、cnnに圧倒的に支配されている多くのコンピュータビジョンタスク(意味セグメンテーションなど)の展望は、近年大きく革命している。
しかし、計算コストとメモリ要件により、これらの手法はモバイルデバイス、特にピクセル毎のセマンティクスセグメンテーションタスクの高解像度化には適さない。
本稿では,モバイルセマンティックセグメンテーションのための圧縮強化型Axial TransFormer(SeaFormer)を提案する。
具体的には、圧縮軸の定式化と詳細強化を特徴とする一般的な注意ブロックを設計する。
さらにコスト効率のよいバックボーンアーキテクチャのファミリを作成するためにも使用できる。
光セグメンテーションヘッドと組み合わせることで、ade20kとcityscapesデータセット上のarmベースのモバイルデバイスのセグメンテーション精度とレイテンシのトレードオフを最大化します。
重要なのは、私たちはモバイルフレンドリーなライバルとトランスフォーマーベースのライバルを、ベルやホイッスルなしでパフォーマンスと低レイテンシで破ったことです。
セマンティックセグメンテーション以外にも,提案するSeaFormerアーキテクチャを画像分類問題に適用し,モバイルフレンドリーなバックボーンとして機能する可能性を示す。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Migrating Face Swap to Mobile Devices: A lightweight Framework and A
Supervised Training Solution [7.572886749166295]
MobileFSGANは、顔スワップ用の新しい軽量なGANで、競合性能を達成しつつ、はるかに少ないパラメータでモバイルデバイスで実行できる。
軽量エンコーダ・デコーダ構造は、特に画像合成タスクのために設計されており、10.2MBしかなく、モバイルデバイス上でリアルタイムに動作させることができる。
論文 参考訳(メタデータ) (2022-04-13T05:35:11Z) - TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation [111.8342799044698]
textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。
提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。
ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
論文 参考訳(メタデータ) (2022-04-12T04:51:42Z) - SPViT: Enabling Faster Vision Transformers via Soft Token Pruning [38.10083471492964]
ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。
平板およびCNN型構造のバニラ変圧器に設定できる計算対応ソフトプルーニングフレームワークを提案する。
我々のフレームワークは、画像分類に匹敵する性能を維持しながら、ViTの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-12-27T20:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。