論文の概要: SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2301.13156v1
- Date: Mon, 30 Jan 2023 18:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 13:20:38.449778
- Title: SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic
Segmentation
- Title(参考訳): seaformer:モバイルセマンティクスセグメンテーションのためのスクイーズエンハンスエンハンスド軸トランス
- Authors: Qiang Wan, Zilong Huang, Jiachen Lu, Gang Yu, Li Zhang
- Abstract要約: 本研究では,モバイルセマンティックセグメンテーションのための圧縮強化Axial TransFormer(SeaFormer)を提案する。
モバイルフレンドリーなライバルとTransformerベースのライバルに勝って、パフォーマンスが良く、レイテンシも低い。
- 参考スコア(独自算出の注目度): 27.827220515999585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the introduction of Vision Transformers, the landscape of many computer
vision tasks (e.g., semantic segmentation), which has been overwhelmingly
dominated by CNNs, recently has significantly revolutionized. However, the
computational cost and memory requirement render these methods unsuitable on
the mobile device, especially for the high-resolution per-pixel semantic
segmentation task. In this paper, we introduce a new method squeeze-enhanced
Axial TransFormer (SeaFormer) for mobile semantic segmentation. Specifically,
we design a generic attention block characterized by the formulation of squeeze
Axial and detail enhancement. It can be further used to create a family of
backbone architectures with superior cost-effectiveness. Coupled with a light
segmentation head, we achieve the best trade-off between segmentation accuracy
and latency on the ARM-based mobile devices on the ADE20K and Cityscapes
datasets. Critically, we beat both the mobile-friendly rivals and
Transformer-based counterparts with better performance and lower latency
without bells and whistles. Beyond semantic segmentation, we further apply the
proposed SeaFormer architecture to image classification problem, demonstrating
the potentials of serving as a versatile mobile-friendly backbone.
- Abstract(参考訳): 視覚トランスフォーマーの導入以来、cnnに圧倒的に支配されている多くのコンピュータビジョンタスク(意味セグメンテーションなど)の展望は、近年大きく革命している。
しかし、計算コストとメモリ要件により、これらの手法はモバイルデバイス、特にピクセル毎のセマンティクスセグメンテーションタスクの高解像度化には適さない。
本稿では,モバイルセマンティックセグメンテーションのための圧縮強化型Axial TransFormer(SeaFormer)を提案する。
具体的には、圧縮軸の定式化と詳細強化を特徴とする一般的な注意ブロックを設計する。
さらにコスト効率のよいバックボーンアーキテクチャのファミリを作成するためにも使用できる。
光セグメンテーションヘッドと組み合わせることで、ade20kとcityscapesデータセット上のarmベースのモバイルデバイスのセグメンテーション精度とレイテンシのトレードオフを最大化します。
重要なのは、私たちはモバイルフレンドリーなライバルとトランスフォーマーベースのライバルを、ベルやホイッスルなしでパフォーマンスと低レイテンシで破ったことです。
セマンティックセグメンテーション以外にも,提案するSeaFormerアーキテクチャを画像分類問題に適用し,モバイルフレンドリーなバックボーンとして機能する可能性を示す。
関連論文リスト
- RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation [111.8342799044698]
textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。
提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。
ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
論文 参考訳(メタデータ) (2022-04-12T04:51:42Z) - MOSAIC: Mobile Segmentation via decoding Aggregated Information and
encoded Context [2.6150066409672683]
モバイルデバイス上でのセマンティックイメージセグメンテーションを効率的に正確に行うための次世代ニューラルネットワークアーキテクチャMOSAICを提案する。
MOSAICは、さまざまなモバイルプラットフォームにまたがる柔軟なデプロイメントのために、さまざまなモバイルハードウェアプラットフォームによって一般的にサポートされているニューラル操作を使用して設計されている。
効率的なマルチスケールコンテキストエンコーダと軽量ハイブリッドデコーダから構成される単純な非対称エンコーダ・デコーダ構造により、MOSAICは精度と計算コストのバランスを保ちながら、新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-12-22T02:01:45Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Compact retail shelf segmentation for mobile deployment [6.127963013089406]
私たちは、小売業界でよくある問題であるシェルフセグメンテーションに取り組んでいます。
目的は、シェルフエッジをセグメント化するだけでなく、モデルをモバイルデバイスにデプロイすることにある。
メモリ制限のあるデバイス上で高速に動作し、ラベル付きデータの少ない100イメージでトレーニングできる小型のコンパクトモデルを提案する。
論文 参考訳(メタデータ) (2020-04-27T18:54:36Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。