Fugu-MT 論文翻訳(概要): SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation

論文の概要: SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation

arxiv url: http://arxiv.org/abs/2301.13156v1
Date: Mon, 30 Jan 2023 18:34:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 13:20:38.449778
Title: SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation
Title（参考訳）: seaformer:モバイルセマンティクスセグメンテーションのためのスクイーズエンハンスエンハンスド軸トランス
Authors: Qiang Wan, Zilong Huang, Jiachen Lu, Gang Yu, Li Zhang
Abstract要約: 本研究では,モバイルセマンティックセグメンテーションのための圧縮強化Axial TransFormer(SeaFormer)を提案する。モバイルフレンドリーなライバルとTransformerベースのライバルに勝って、パフォーマンスが良く、レイテンシも低い。
参考スコア（独自算出の注目度）: 27.827220515999585
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Since the introduction of Vision Transformers, the landscape of many computer vision tasks (e.g., semantic segmentation), which has been overwhelmingly dominated by CNNs, recently has significantly revolutionized. However, the computational cost and memory requirement render these methods unsuitable on the mobile device, especially for the high-resolution per-pixel semantic segmentation task. In this paper, we introduce a new method squeeze-enhanced Axial TransFormer (SeaFormer) for mobile semantic segmentation. Specifically, we design a generic attention block characterized by the formulation of squeeze Axial and detail enhancement. It can be further used to create a family of backbone architectures with superior cost-effectiveness. Coupled with a light segmentation head, we achieve the best trade-off between segmentation accuracy and latency on the ARM-based mobile devices on the ADE20K and Cityscapes datasets. Critically, we beat both the mobile-friendly rivals and Transformer-based counterparts with better performance and lower latency without bells and whistles. Beyond semantic segmentation, we further apply the proposed SeaFormer architecture to image classification problem, demonstrating the potentials of serving as a versatile mobile-friendly backbone.
Abstract（参考訳）: 視覚トランスフォーマーの導入以来、cnnに圧倒的に支配されている多くのコンピュータビジョンタスク(意味セグメンテーションなど)の展望は、近年大きく革命している。しかし、計算コストとメモリ要件により、これらの手法はモバイルデバイス、特にピクセル毎のセマンティクスセグメンテーションタスクの高解像度化には適さない。本稿では,モバイルセマンティックセグメンテーションのための圧縮強化型Axial TransFormer(SeaFormer)を提案する。具体的には、圧縮軸の定式化と詳細強化を特徴とする一般的な注意ブロックを設計する。さらにコスト効率のよいバックボーンアーキテクチャのファミリを作成するためにも使用できる。光セグメンテーションヘッドと組み合わせることで、ade20kとcityscapesデータセット上のarmベースのモバイルデバイスのセグメンテーション精度とレイテンシのトレードオフを最大化します。重要なのは、私たちはモバイルフレンドリーなライバルとトランスフォーマーベースのライバルを、ベルやホイッスルなしでパフォーマンスと低レイテンシで破ったことです。セマンティックセグメンテーション以外にも,提案するSeaFormerアーキテクチャを画像分類問題に適用し,モバイルフレンドリーなバックボーンとして機能する可能性を示す。

関連論文リスト

CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。 QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文参考訳（メタデータ） (2023-03-27T11:13:50Z)
RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。 CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文参考訳（メタデータ） (2022-10-13T16:03:53Z)
Cross-receptive Focused Inference Network for Lightweight Image Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文参考訳（メタデータ） (2022-07-06T16:32:29Z)
MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。 MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文参考訳（メタデータ） (2022-06-02T07:38:53Z)
Migrating Face Swap to Mobile Devices: A lightweight Framework and A Supervised Training Solution [7.572886749166295]
MobileFSGANは、顔スワップ用の新しい軽量なGANで、競合性能を達成しつつ、はるかに少ないパラメータでモバイルデバイスで実行できる。軽量エンコーダ・デコーダ構造は、特に画像合成タスクのために設計されており、10.2MBしかなく、モバイルデバイス上でリアルタイムに動作させることができる。
論文参考訳（メタデータ） (2022-04-13T05:35:11Z)
TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation [111.8342799044698]
textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。 ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
論文参考訳（メタデータ） (2022-04-12T04:51:42Z)
SPViT: Enabling Faster Vision Transformers via Soft Token Pruning [38.10083471492964]
ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。平板およびCNN型構造のバニラ変圧器に設定できる計算対応ソフトプルーニングフレームワークを提案する。我々のフレームワークは、画像分類に匹敵する性能を維持しながら、ViTの計算コストを大幅に削減する。
論文参考訳（メタデータ） (2021-12-27T20:15:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。