論文の概要: MacFormer: Semantic Segmentation with Fine Object Boundaries
- arxiv url: http://arxiv.org/abs/2408.05699v1
- Date: Sun, 11 Aug 2024 05:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 15:57:51.974821
- Title: MacFormer: Semantic Segmentation with Fine Object Boundaries
- Title(参考訳): MacFormer: 細かいオブジェクト境界を持つセマンティックセグメンテーション
- Authors: Guoan Xu, Wenfeng Huang, Tao Wu, Ligeng Chen, Wenjing Jia, Guangwei Gao, Xiatian Zhu, Stuart Perry,
- Abstract要約: 新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
- 参考スコア(独自算出の注目度): 38.430631361558426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation involves assigning a specific category to each pixel in an image. While Vision Transformer-based models have made significant progress, current semantic segmentation methods often struggle with precise predictions in localized areas like object boundaries. To tackle this challenge, we introduce a new semantic segmentation architecture, ``MacFormer'', which features two key components. Firstly, using learnable agent tokens, a Mutual Agent Cross-Attention (MACA) mechanism effectively facilitates the bidirectional integration of features across encoder and decoder layers. This enables better preservation of low-level features, such as elementary edges, during decoding. Secondly, a Frequency Enhancement Module (FEM) in the decoder leverages high-frequency and low-frequency components to boost features in the frequency domain, benefiting object boundaries with minimal computational complexity increase. MacFormer is demonstrated to be compatible with various network architectures and outperforms existing methods in both accuracy and efficiency on benchmark datasets ADE20K and Cityscapes under different computational constraints.
- Abstract(参考訳): セマンティックセグメンテーションでは、画像の各ピクセルに特定のカテゴリを割り当てる。
ビジョントランスフォーマーベースのモデルは大きな進歩を遂げているが、現在のセマンティックセグメンテーション手法は、オブジェクト境界のような局所的な領域で正確な予測に苦慮することが多い。
この課題に対処するため、我々は新しいセマンティックセグメンテーションアーキテクチャである ``MacFormer' を導入しました。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
これにより、デコード中の基本エッジなどの低レベルの特徴の保存性が向上する。
第二に、デコーダの周波数拡張モジュール(FEM)は、高周波および低周波のコンポーネントを活用して周波数領域の機能を強化し、最小の計算量の増加を伴うオブジェクト境界の恩恵を受ける。
MacFormerは、様々なネットワークアーキテクチャと互換性があることが示されており、異なる計算制約の下で、ADE20KとCityscapesのベンチマークデータセットの精度と効率の両方で既存の手法より優れている。
関連論文リスト
- SCASeg: Strip Cross-Attention for Efficient Semantic Segmentation [37.2240333333522]
Vision Transformer (ViT) はコンピュータビジョンにおいて顕著な成功を収めており、その変種はセマンティックセグメンテーションを含む様々な下流タスクで広く検証されている。
本稿では,意味的セグメンテーションのために設計された革新的なデコーダヘッドであるStrip Cross-Attention (SCASeg)を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:00:09Z) - MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping [1.1557852082644071]
少数の例だけで、クエリイメージ内のオブジェクトをセグメント化するという課題に、Semanticは対処している。
本稿では,トランスアーキテクチャに基づく新しいFew-shot Semanticフレームワークを提案する。
150万のパラメータしか持たないモデルでは,既存の手法の限界を克服しつつ,競争性能を実証している。
論文 参考訳(メタデータ) (2024-09-17T16:14:03Z) - Mobile-Seed: Joint Semantic Segmentation and Boundary Detection for
Mobile Robots [17.90723909170376]
セマンティックセグメンテーションと境界検出を同時に行う軽量なフレームワークであるMobile-Seedを紹介する。
我々のフレームワークは、2ストリームエンコーダ、アクティブフュージョンデコーダ(AFD)、デュアルタスク正規化アプローチを備えている。
Cityscapesデータセットの実験によると、Mobile-Seedは最先端(SOTA)ベースラインよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-11-21T14:53:02Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - LENet: Lightweight And Efficient LiDAR Semantic Segmentation Using
Multi-Scale Convolution Attention [0.0]
本稿では,LDARに基づくセマンティックセマンティックセマンティクスのためのエンコーダデコーダ構造を持つLENetと呼ばれるプロジェクションベースのセマンティクスセマンティクスセマンティクスネットワークを提案する。
エンコーダは、特徴を捉えるために、様々な受信フィールドサイズを持つ新しいマルチスケール・コンボリューション・アテンション(MSCA)モジュールで構成されている。
提案手法は, 最先端のセマンティックセグメンテーション法と比較して, 軽量で, 効率的で, 堅牢であることを示す。
論文 参考訳(メタデータ) (2023-01-11T02:51:38Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Boundary-Aware Segmentation Network for Mobile and Web Applications [60.815545591314915]
境界認識ネットワーク(basnet)は、精度の高い画像分割のための予測再定義アーキテクチャとハイブリッド損失と統合されている。
basnetは単一のgpu上で70fps以上動作し、多くの潜在的なアプリケーションが利用できる。
BASNetをベースに、BASNetが「COPY」と「PASTING」現実世界のオブジェクトのための拡張現実であるAR COPY & PASTEと、オブジェクト背景の自動削除のためのWebベースのツールであるOBJECT CUTの2つの(近い)商用アプリケーションをさらに開発しました。
論文 参考訳(メタデータ) (2021-01-12T19:20:26Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - CARAFE++: Unified Content-Aware ReAssembly of FEatures [132.49582482421246]
この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。
CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。
計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
論文 参考訳(メタデータ) (2020-12-07T07:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。