論文の概要: S$^2$-FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2206.07298v3
- Date: Sun, 19 May 2024 00:31:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 01:31:04.929500
- Title: S$^2$-FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation
- Title(参考訳): S$^2$-FPN:リアルタイムセマンティックセグメンテーションのためのスケールウェアストリップ注意誘導特徴ピラミッドネットワーク
- Authors: Mohammed A. M. Elhassan, Chenhui Yang, Chenxi Huang, Tewodros Legesse Munea, Xin Hong, Abuzar B. M. Adam, Amina Benabid,
- Abstract要約: 本稿では,リアルタイム道路シーンセマンティックセグメンテーションにおける精度/速度のトレードオフを実現するための新しいモデルを提案する。
具体的には、スケール対応ストリップ注意誘導特徴ピラミッドネットワーク(S$2-FPN)という軽量モデルを提案する。
我々のネットワークは,アテンションピラミッドフュージョン(APF)モジュール,スケール対応ストリップアテンションモジュール(SSAM)モジュール,グローバルフィーチャーアップサンプル(GFU)モジュールの3つの主要モジュールで構成されている。
- 参考スコア(独自算出の注目度): 6.744210626403423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern high-performance semantic segmentation methods employ a heavy backbone and dilated convolution to extract the relevant feature. Although extracting features with both contextual and semantic information is critical for the segmentation tasks, it brings a memory footprint and high computation cost for real-time applications. This paper presents a new model to achieve a trade-off between accuracy/speed for real-time road scene semantic segmentation. Specifically, we proposed a lightweight model named Scale-aware Strip Attention Guided Feature Pyramid Network (S$^2$-FPN). Our network consists of three main modules: Attention Pyramid Fusion (APF) module, Scale-aware Strip Attention Module (SSAM), and Global Feature Upsample (GFU) module. APF adopts an attention mechanisms to learn discriminative multi-scale features and help close the semantic gap between different levels. APF uses the scale-aware attention to encode global context with vertical stripping operation and models the long-range dependencies, which helps relate pixels with similar semantic label. In addition, APF employs channel-wise reweighting block (CRB) to emphasize the channel features. Finally, the decoder of S$^2$-FPN then adopts GFU, which is used to fuse features from APF and the encoder. Extensive experiments have been conducted on two challenging semantic segmentation benchmarks, which demonstrate that our approach achieves better accuracy/speed trade-off with different model settings. The proposed models have achieved a results of 76.2\%mIoU/87.3FPS, 77.4\%mIoU/67FPS, and 77.8\%mIoU/30.5FPS on Cityscapes dataset, and 69.6\%mIoU,71.0\% mIoU, and 74.2\% mIoU on Camvid dataset. The code for this work will be made available at \url{https://github.com/mohamedac29/S2-FPN
- Abstract(参考訳): 現代の高性能セマンティックセグメンテーション手法は、重いバックボーンと拡張畳み込みを用いて関連する特徴を抽出する。
セグメンテーションタスクにはコンテキスト情報と意味情報の両方で機能を抽出することが重要であるが、リアルタイムアプリケーションにはメモリフットプリントと高い計算コストをもたらす。
本稿では,リアルタイム道路シーンセマンティックセグメンテーションにおける精度/速度のトレードオフを実現するための新しいモデルを提案する。
具体的には,S$^2$-FPN(Scale-aware Strip Attention Guided Feature Pyramid Network)という軽量モデルを提案する。
我々のネットワークは,アテンションピラミッドフュージョン(APF)モジュール,スケール対応ストリップアテンションモジュール(SSAM)モジュール,グローバルフィーチャーアップサンプル(GFU)モジュールの3つの主要モジュールで構成されている。
APFは、差別的なマルチスケールの特徴を学習し、異なるレベル間のセマンティックギャップを埋めるための注意機構を採用している。
APFは、グローバルコンテキストを垂直なストリップ操作でエンコードするためにスケールアウェアアテンションを使用し、長距離依存をモデル化し、ピクセルと同様のセマンティックラベルを関連付けるのに役立つ。
さらに、APFはチャンネル機能を強調するためにチャンネルワイドリウェイトブロック(CRB)を使用している。
最後に、S$^2$-FPNのデコーダは、APFとエンコーダの機能を融合するために使用されるGFUを採用する。
2つの挑戦的なセマンティックセマンティック・セマンティック・セマンティクス・ベンチマークで大規模な実験を行い、この手法がモデル設定の異なる精度/速度トレードオフを実現することを実証した。
提案されたモデルは、76.2\%mIoU/87.3FPS、77.4\%mIoU/67FPS、77.8\%mIoU/30.5FPS、69.6\%mIoU,71.0\%mIoU、74.2\%mIoUである。
この作業のコードは \url{https://github.com/mohamedac29/S2-FPN で公開される。
関連論文リスト
- PyramidMamba: Rethinking Pyramid Feature Fusion with Selective Space State Model for Semantic Segmentation of Remote Sensing Imagery [30.522327480291295]
本稿では,新しいMambaベースのセグメンテーションネットワークであるPraamidMambaを提案する。
具体的には,高密度空間ピラミッドプーリング (DSPP) を設計し,多スケールな意味的特徴を符号化し,多スケールな特徴融合における意味的冗長性を低減するためにピラミッド融合マムバ (PFM) を符号化する。
PyramidMambaは3つの公開データセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-06-16T07:43:40Z) - P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - P2AT: Pyramid Pooling Axial Transformer for Real-time Semantic
Segmentation [1.1470070927586018]
ピラミッドプーリング軸変換器(P2AT)というリアルタイムセマンティックセマンティックセマンティクスアーキテクチャを提案する。
提案したP2ATは、CNNエンコーダから粗い機能を取り入れ、スケールアウェアなコンテキスト特徴を生成する。
P2ATの変種を3つの難解なシーン理解データセットで評価する。
論文 参考訳(メタデータ) (2023-10-23T15:23:31Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing [12.409365458889082]
AttaNet(Attention-Augmented Network)と呼ばれる新しいモデルを提案し、グローバルコンテキストとマルチレベルセマンティクスの両方をキャプチャする。
AttaNet は Strip Attention Module (SAM) と Attention Fusion Module (AFM) の2つの主要なモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-10T08:38:29Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。