論文の概要: SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow
- arxiv url: http://arxiv.org/abs/2207.04415v2
- Date: Fri, 4 Aug 2023 09:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 17:52:52.373146
- Title: SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow
- Title(参考訳): sfnet: セマンティックフローによる高速で正確なセマンティックセグメンテーション
- Authors: Xiangtai Li, Jiangning Zhang, Yibo Yang, Guangliang Cheng, Kuiyuan
Yang, Yunhai Tong, Dacheng Tao
- Abstract要約: 性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
- 参考スコア(独自算出の注目度): 88.97790684009979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on exploring effective methods for faster and
accurate semantic segmentation. A common practice to improve the performance is
to attain high-resolution feature maps with strong semantic representation. Two
strategies are widely used: atrous convolutions and feature pyramid fusion,
while both are either computationally intensive or ineffective. Inspired by the
Optical Flow for motion alignment between adjacent video frames, we propose a
Flow Alignment Module (FAM) to learn \textit{Semantic Flow} between feature
maps of adjacent levels and broadcast high-level features to high-resolution
features effectively and efficiently. Furthermore, integrating our FAM to a
standard feature pyramid structure exhibits superior performance over other
real-time methods, even on lightweight backbone networks, such as ResNet-18 and
DFNet. Then to further speed up the inference procedure, we also present a
novel Gated Dual Flow Alignment Module to directly align high-resolution
feature maps and low-resolution feature maps where we term the improved version
network as SFNet-Lite. Extensive experiments are conducted on several
challenging datasets, where results show the effectiveness of both SFNet and
SFNet-Lite. In particular, when using Cityscapes test set, the SFNet-Lite
series achieve 80.1 mIoU while running at 60 FPS using ResNet-18 backbone and
78.8 mIoU while running at 120 FPS using STDC backbone on RTX-3090. Moreover,
we unify four challenging driving datasets into one large dataset, which we
named Unified Driving Segmentation (UDS) dataset. It contains diverse domain
and style information. We benchmark several representative works on UDS. Both
SFNet and SFNet-Lite still achieve the best speed and accuracy trade-off on
UDS, which serves as a strong baseline in such a challenging setting. The code
and models are publicly available at https://github.com/lxtGH/SFSegNets.
- Abstract(参考訳): 本稿では,より高速かつ高精度なセマンティックセグメンテーションのための効果的な手法を提案する。
性能を改善するための一般的な実践は、強い意味表現を持つ高解像度の特徴写像を得ることである。
atrous convolutionsとfeature pyramid fusionの2つの戦略が広く使われているが、どちらも計算量が多いか非効率である。
近接する映像フレーム間の移動アライメントのためのオプティカルフローに触発されて,隣接レベルの特徴マップ間の\textit{semantic flow} を学習するフローアライメントモジュール(fam)を提案し,高分解能機能に対して高レベル機能を効果的かつ効率的にブロードキャストする。
さらに、FAMを標準的な特徴ピラミッド構造に統合すると、ResNet-18やDFNetのような軽量バックボーンネットワークでも、他のリアルタイム手法よりも優れたパフォーマンスが得られる。
さらに,提案手法をさらに高速化するために,高分解能特徴マップと低分解能特徴マップを直接整列するゲート付きデュアルフローアライメントモジュールを提案し,改良バージョンネットワークをsfnet-liteと呼ぶ。
sfnetとsfnet-liteの両方の有効性を示す、いくつかの挑戦的なデータセットで広範な実験が行われている。
特にCityscapesテストセットを使用する場合、SFNet-Liteシリーズは60FPSでResNet-18バックボーンで78.8mIoU、RTX-3090でSTDCバックボーンで120FPSで78.8mIoUを達成した。
さらに、挑戦的な4つのデータセットを1つの大きなデータセットにまとめて、Unified Driving Segmentation(UDS)データセットと名付けました。
様々なドメインやスタイル情報を含んでいる。
UDSでいくつかの代表作をベンチマークする。
SFNetとSFNet-LiteはいずれもUDS上で最高の速度と精度のトレードオフを実現しています。
コードとモデルはhttps://github.com/lxtgh/sfsegnetsで公開されている。
関連論文リスト
- Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - A Multi-Stage Duplex Fusion ConvNet for Aerial Scene Classification [4.061135251278187]
マルチステージ二重核融合ネットワーク (MSDF-Net) を開発した。
MSDF-NetはDFblockを備えた多段構造で構成されている。
広範に使用されている3つの航空シーン分類ベンチマークで実験が行われた。
論文 参考訳(メタデータ) (2022-03-29T09:27:53Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - Dense Dual-Path Network for Real-time Semantic Segmentation [7.8381744043673045]
本稿では,資源制約下でのリアルタイムセマンティックセグメンテーションのための新しいDual-Path Network(DDPNet)を提案する。
DDPNetは、GTX 1080Tiカードの1024 X 2048解像度の入力に対して52.6 FPSで75.3% mIoUを達成した。
論文 参考訳(メタデータ) (2020-10-21T06:11:41Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z) - Semantic Flow for Fast and Accurate Scene Parsing [28.444273169423074]
フローアライメントモジュール(FAM)は、隣接するレベルの特徴マップ間のセマンティックフローを学習する。
Cityscapes、PASCAL Context、ADE20K、CamVidなど、いくつかの挑戦的なデータセットで実験が行われている。
私たちのネットワークは、26FPSのフレームレートで80.4%のmIoUをCityscapesで達成した初めてのネットワークです。
論文 参考訳(メタデータ) (2020-02-24T08:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。