論文の概要: S\textsuperscript{2}-FPN: Scale-ware Strip Attention Guided Feature
Pyramid Network for Real-time Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2206.07298v1
- Date: Wed, 15 Jun 2022 05:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 06:00:13.875748
- Title: S\textsuperscript{2}-FPN: Scale-ware Strip Attention Guided Feature
Pyramid Network for Real-time Semantic Segmentation
- Title(参考訳): S\textsuperscript{2}-FPN:リアルタイムセマンティックセグメンテーションのためのスケールウェアストリップ注意誘導特徴ピラミッドネットワーク
- Authors: Mohammed A. M. Elhassan, Chenhui Yang, Chenxi Huang, Tewodros Legesse
Munea, Xin Hong
- Abstract要約: 本稿では,リアルタイム道路シーンセマンティックセグメンテーションにおける精度/速度のトレードオフを実現するための新しいモデルを提案する。
具体的には、Ssuperscript2-FPN(Ssuperscript2-FPN)と呼ばれる軽量モデルを提案する。
我々のネットワークは,アテンションピラミッドフュージョン(APF)モジュール,スケール対応ストリップアテンションモジュール(SSAM)モジュール,グローバルフィーチャーアップサンプル(GFU)モジュールの3つの主要モジュールで構成されている。
- 参考スコア(独自算出の注目度): 9.922382556154053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern high-performance semantic segmentation methods employ a heavy backbone
and dilated convolution to extract the relevant feature. Although extracting
features with both contextual and semantic information is critical for the
segmentation tasks, it brings a memory footprint and high computation cost for
real-time applications. This paper presents a new model to achieve a trade-off
between accuracy/speed for real-time road scene semantic segmentation.
Specifically, we proposed a lightweight model named Scale-aware Strip Attention
Guided Feature Pyramid Network (S\textsuperscript{2}-FPN). Our network consists
of three main modules: Attention Pyramid Fusion (APF) module, Scale-aware Strip
Attention Module (SSAM), and Global Feature Upsample (GFU) module. APF adopts
an attention mechanisms to learn discriminative multi-scale features and help
close the semantic gap between different levels. APF uses the scale-aware
attention to encode global context with vertical stripping operation and models
the long-range dependencies, which helps relate pixels with similar semantic
label. In addition, APF employs channel-wise reweighting block (CRB) to
emphasize the channel features. Finally, the decoder of
S\textsuperscript{2}-FPN then adopts GFU, which is used to fuse features from
APF and the encoder. Extensive experiments have been conducted on two
challenging semantic segmentation benchmarks, which demonstrate that our
approach achieves better accuracy/speed trade-off with different model
settings. The proposed models have achieved a results of 76.2\%mIoU/87.3FPS,
77.4\%mIoU/67FPS, and 77.8\%mIoU/30.5FPS on Cityscapes dataset, and
69.6\%mIoU,71.0\% mIoU, and 74.2\% mIoU on Camvid dataset. The code for this
work will be made available at \url{https://github.com/mohamedac29/S2-FPN
- Abstract(参考訳): 現代の高性能セマンティックセグメンテーション手法は、重いバックボーンと拡張畳み込みを用いて関連する特徴を抽出する。
セグメンテーションタスクにはコンテキスト情報と意味情報の両方で機能を抽出することが重要であるが、リアルタイムアプリケーションにはメモリフットプリントと高い計算コストをもたらす。
本稿では,リアルタイム道路シーンセマンティックセグメンテーションにおける精度/速度のトレードオフを実現するための新しいモデルを提案する。
具体的には、スケール対応ストリップ注意誘導特徴ピラミッドネットワーク(S\textsuperscript{2}-FPN)という軽量モデルを提案する。
我々のネットワークは,アテンションピラミッド融合(APF)モジュール,スケール対応ストリップ注意モジュール(SSAM)モジュール,グローバルフィーチャーアップサンプル(GFU)モジュールの3つの主要モジュールで構成されている。
APFは、差別的なマルチスケールの特徴を学習し、異なるレベル間のセマンティックギャップを埋めるための注意機構を採用している。
APFは、グローバルコンテキストを垂直なストリップ操作でエンコードするためにスケールアウェアアテンションを使用し、長距離依存をモデル化し、ピクセルと同様のセマンティックラベルを関連付けるのに役立つ。
さらに、APFはチャンネル機能を強調するためにチャンネルワイドリウェイトブロック(CRB)を使用している。
最後に、S\textsuperscript{2}-FPNのデコーダは、APFとエンコーダの機能を融合するために使用されるGFUを採用する。
2つの難解なセマンティックセグメンテーションベンチマークで広範な実験が行われ、異なるモデル設定で精度と速度のトレードオフが達成できることが実証された。
提案されたモデルは、76.2\%mIoU/87.3FPS、77.4\%mIoU/67FPS、77.8\%mIoU/30.5FPS、69.6\%mIoU,71.0\%mIoU、74.2\%mIoUである。
この作業のコードは \url{https://github.com/mohamedac29/S2-FPN
関連論文リスト
- PyramidMamba: Rethinking Pyramid Feature Fusion with Selective Space State Model for Semantic Segmentation of Remote Sensing Imagery [30.522327480291295]
本稿では,新しいMambaベースのセグメンテーションネットワークであるPraamidMambaを提案する。
具体的には,高密度空間ピラミッドプーリング (DSPP) を設計し,多スケールな意味的特徴を符号化し,多スケールな特徴融合における意味的冗長性を低減するためにピラミッド融合マムバ (PFM) を符号化する。
PyramidMambaは3つの公開データセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-06-16T07:43:40Z) - P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - P2AT: Pyramid Pooling Axial Transformer for Real-time Semantic
Segmentation [1.1470070927586018]
ピラミッドプーリング軸変換器(P2AT)というリアルタイムセマンティックセマンティックセマンティクスアーキテクチャを提案する。
提案したP2ATは、CNNエンコーダから粗い機能を取り入れ、スケールアウェアなコンテキスト特徴を生成する。
P2ATの変種を3つの難解なシーン理解データセットで評価する。
論文 参考訳(メタデータ) (2023-10-23T15:23:31Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing [12.409365458889082]
AttaNet(Attention-Augmented Network)と呼ばれる新しいモデルを提案し、グローバルコンテキストとマルチレベルセマンティクスの両方をキャプチャする。
AttaNet は Strip Attention Module (SAM) と Attention Fusion Module (AFM) の2つの主要なモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-10T08:38:29Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。