論文の概要: Spatial-Assistant Encoder-Decoder Network for Real Time Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2309.10519v1
- Date: Tue, 19 Sep 2023 10:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 14:52:14.854940
- Title: Spatial-Assistant Encoder-Decoder Network for Real Time Semantic
Segmentation
- Title(参考訳): リアルタイムセマンティックセグメンテーションのための空間支援エンコーダデコーダネットワーク
- Authors: Yalun Wang, Shidong Chen, Huicong Bian, Weixiao Li, Qin Lu
- Abstract要約: 本稿では,2つのアーキテクチャを融合させるために,SANet(Spatial-Assistant-Decoder Network)を提案する。
全体的なアーキテクチャでは、エンコーダ-デコーダの設計を維持しながら、エンコーダの中央部分に特徴マップを保持する。
提案手法の有効性を確認するため,我々のSANetモデルは,リアルタイムCamVidおよび都市景観データセット上での競合的な結果を得た。
- 参考スコア(独自算出の注目度): 2.462706420556381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation is an essential technology for self-driving cars to
comprehend their surroundings. Currently, real-time semantic segmentation
networks commonly employ either encoder-decoder architecture or two-pathway
architecture. Generally speaking, encoder-decoder models tend to be
quicker,whereas two-pathway models exhibit higher accuracy. To leverage both
strengths, we present the Spatial-Assistant Encoder-Decoder Network (SANet) to
fuse the two architectures. In the overall architecture, we uphold the
encoder-decoder design while maintaining the feature maps in the middle section
of the encoder and utilizing atrous convolution branches for same-resolution
feature extraction. Toward the end of the encoder, we integrate the asymmetric
pooling pyramid pooling module (APPPM) to optimize the semantic extraction of
the feature maps. This module incorporates asymmetric pooling layers that
extract features at multiple resolutions. In the decoder, we present a hybrid
attention module, SAD, that integrates horizontal and vertical attention to
facilitate the combination of various branches. To ascertain the effectiveness
of our approach, our SANet model achieved competitive results on the real-time
CamVid and cityscape datasets. By employing a single 2080Ti GPU, SANet achieved
a 78.4 % mIOU at 65.1 FPS on the Cityscape test dataset and 78.8 % mIOU at 147
FPS on the CamVid test dataset. The training code and model for SANet are
available at https://github.com/CuZaoo/SANet-main
- Abstract(参考訳): セマンティックセグメンテーションは、自動運転車が周囲を理解する上で不可欠な技術である。
現在、リアルタイムセマンティクスセグメンテーションネットワークでは、エンコーダ-デコーダアーキテクチャまたは2パスアーキテクチャが一般的である。
一般に、エンコーダ-デコーダモデルはより高速で、2経路モデルの方が高い精度を示す傾向がある。
両強みを活かすため,2つのアーキテクチャを融合させるために,SANet(Spatial-Assistant Encoder-Decoder Network)を提案する。
全体的なアーキテクチャでは,エンコーダの中間部における特徴マップを維持しながらエンコーダとデコーダの設計を維持し,同解像度の特徴抽出にアトラス畳み込みブランチを利用する。
エンコーダの終了に向けて,非対称なプールピラミッドプールモジュール(APPPM)を統合し,特徴写像のセマンティック抽出を最適化する。
このモジュールには、複数の解像度で特徴を抽出する非対称プール層が組み込まれている。
このデコーダでは,水平方向と垂直方向のアテンションを統合し,様々なブランチの組み合わせを容易にするハイブリッドアテンションモジュールsadを提案する。
提案手法の有効性を確認するため,我々のSANetモデルは,リアルタイムCamVidおよび都市景観データセット上での競争結果を得た。
単一の2080Ti GPUを使用することで、Cityscapeテストデータセットでは65.1 FPSで78.4 % mIOU、CamVidテストデータセットでは147 FPSで78.8 % mIOUを達成した。
SANetのトレーニングコードとモデルはhttps://github.com/CuZaoo/SANet-mainで公開されている。
関連論文リスト
- SoftPool++: An Encoder-Decoder Network for Point Cloud Completion [93.54286830844134]
本稿では,ポイントクラウド完了作業のための新しい畳み込み演算子を提案する。
提案した演算子は、最大プールやボキセル化操作を一切必要としない。
提案手法は,低解像度・高解像度の形状仕上げにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T15:31:36Z) - Adjacent Context Coordination Network for Salient Object Detection in
Optical Remote Sensing Images [102.75699068451166]
本稿では,光RSI-SODのためのエンコーダ・デコーダアーキテクチャにおいて,隣接した特徴のコーディネートを探索するための新しいアジャセントコンテキストコーディネートネットワーク(ACCoNet)を提案する。
提案されたACCoNetは、9つの評価基準の下で22の最先端メソッドを上回り、1つのNVIDIA Titan X GPU上で81fpsで動作する。
論文 参考訳(メタデータ) (2022-03-25T14:14:55Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - FBSNet: A Fast Bilateral Symmetrical Network for Real-Time Semantic
Segmentation [23.25851281719734]
リアルタイムセマンティックセグメンテーションのためのFBSNet(Fast Bilateral Symmetrical Network)を提案する。
FBSNetには対称デコーダ構造があり、2つの分岐、意味情報分岐、空間詳細分岐がある。
CityscapesとCamVidの実験結果から、提案したFBSNetは精度と効率のバランスが良いことを示している。
論文 参考訳(メタデータ) (2021-09-02T04:16:39Z) - Feature Reuse and Fusion for Real-time Semantic segmentation [0.0]
高分解能を維持しながら速度を上げる方法は議論され解決された問題である。
従来の設計経験に基づいて軽量ネットワークを設計し、最先端のリアルタイムセマンティックセマンティックセグメンテーションのレベルに到達したいと考えています。
論文 参考訳(メタデータ) (2021-05-27T06:47:02Z) - Rethinking BiSeNet For Real-time Semantic Segmentation [6.622485130017622]
BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
本稿では,stdc( short-term dense concatenate network)と呼ばれる新しい構造を提案する。
論文 参考訳(メタデータ) (2021-04-27T13:49:47Z) - Deep Dual-resolution Networks for Real-time and Accurate Semantic
Segmentation of Road Scenes [0.23090185577016442]
道路シーンのリアルタイムセマンティックセグメンテーションのための新しいディープデュアルリゾリューションネットワーク(DDRNets)を提案する。
提案手法は,Cityscapes と CamVid 両方のデータセットにおける精度と速度の新たなトレードオフを実現する。
論文 参考訳(メタデータ) (2021-01-15T12:56:18Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation [95.47168925127089]
本稿では,エンコーダがデコーダのパラメータ(重み)をエンコードして生成する,新しいリアルタイムセマンティックセグメンテーションネットワークを提案する。
我々は、より高レベルなコンテキスト特徴を描画するためのネストされたU-Netからなる新しいタイプのハイパーネットワークを設計する。
論文 参考訳(メタデータ) (2020-12-21T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。