論文の概要: DWRSeg: Dilation-wise Residual Network for Real-time Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2212.01173v1
- Date: Fri, 2 Dec 2022 13:55:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 15:54:15.303725
- Title: DWRSeg: Dilation-wise Residual Network for Real-time Semantic
Segmentation
- Title(参考訳): DWRSeg:リアルタイムセマンティックセグメンテーションのための拡張ワイド残差ネットワーク
- Authors: Haoran Wei, Xu Liu, Shouchun Xu, Zhongjian Dai, Yaping Dai, Xiangyang
Xu
- Abstract要約: 本稿では,異なる段階における受容場の大きさの異なるDWRSeg(Dilation-wise Residual segmentation)を提案する。
我々はCityscapesテストセットの72.7% mIoUをNVIDIA GeForce GTX 1080 Tiカードで319.5 FPSで達成した。
- 参考スコア(独自算出の注目度): 8.46580689895002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time semantic segmentation has played an important role in intelligent
vehicle scenarios. Recently, numerous networks have incorporated information
from multi-size receptive fields to facilitate feature extraction in real-time
semantic segmentation tasks. However, these methods preferentially adopt
massive receptive fields to elicit more contextual information, which may
result in inefficient feature extraction. We believe that the elaborated
receptive fields are crucial, considering the demand for efficient feature
extraction in real-time tasks. Therefore, we propose an effective and efficient
architecture termed Dilation-wise Residual segmentation (DWRSeg), which
possesses different sets of receptive field sizes within different stages. The
architecture involves (i) a Dilation-wise Residual (DWR) module for extracting
features based on different scales of receptive fields in the high level of the
network; (ii) a Simple Inverted Residual (SIR) module that uses an inverted
bottleneck structure to extract features from the low stage; and (iii) a simple
fully convolutional network (FCN)-like decoder for aggregating multiscale
feature maps to generate the prediction. Extensive experiments on the
Cityscapes and CamVid datasets demonstrate the effectiveness of our method by
achieving a state-of-the-art trade-off between accuracy and inference speed, in
addition to being lighter weight. Without using pretraining or resorting to any
training trick, we achieve 72.7% mIoU on the Cityscapes test set at a speed of
319.5 FPS on one NVIDIA GeForce GTX 1080 Ti card, which is significantly faster
than existing methods. The code and trained models are publicly available.
- Abstract(参考訳): リアルタイムセマンティクスセグメンテーションは、インテリジェントな自動車シナリオにおいて重要な役割を果たす。
近年,リアルタイムセマンティックセグメンテーションタスクにおける特徴抽出を容易にするために,多次元受容場からの情報を組み込んだネットワークが多数存在する。
しかし、これらの手法はより文脈情報を引き出すために大量の受容フィールドを優先的に採用し、結果として非効率な特徴抽出に繋がる可能性がある。
我々は,リアルタイムタスクにおける効率的な特徴抽出の要求を考える上で,精巧な受容野が重要であると信じている。
そこで我々はDWRSeg(Dilation-wise Residual segmentation, DWRSeg)と呼ばれる,異なる段階の受容場サイズを持つ効率的かつ効率的なアーキテクチャを提案する。
建築には
(i)ネットワークの高レベルにおける受容野の異なるスケールに基づいて特徴を抽出するための拡張的残差(dwr)モジュール
(ii)低段から特徴を抽出するために逆ボトルネック構造を用いる簡易な逆残差(sir)モジュール
3) 簡易な完全畳み込みネットワーク(FCN)型デコーダを用いて, マルチスケール特徴写像を集約し, 予測を生成する。
CityscapesとCamVidデータセットの大規模な実験は、より軽量なだけでなく、精度と推論速度の間の最先端のトレードオフを達成して、我々の手法の有効性を実証している。
事前トレーニングやトレーニングのトリックを使わずに、nvidia geforce gtx 1080 tiカードで319.5 fpsの速度でcityscapesテストセットで72.7%miouを達成しました。
コードとトレーニングされたモデルは公開されている。
関連論文リスト
- Highly Efficient and Unsupervised Framework for Moving Object Detection in Satellite Videos [0.2023650687546586]
本稿では,SVMODのための高度に効率的な非教師付きフレームワークを提案する。
提案手法は,1024倍画像上で秒間9フレームを処理できるだけでなく,フォアグラウンド・アート・パフォーマンスも実現可能であることを示す。
論文 参考訳(メタデータ) (2024-11-24T16:06:42Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - A Novel Multi-Stage Training Approach for Human Activity Recognition
from Multimodal Wearable Sensor Data Using Deep Neural Network [11.946078871080836]
ディープニューラルネットワークは、さまざまなウェアラブルセンサーのデータを利用して人間の行動を自動的に認識する効果的な選択である。
本論文では,この特徴抽出プロセスにおける多様性を高める,新たなマルチステージトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-01-03T20:48:56Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Parameter Sharing Exploration and Hetero-Center based Triplet Loss for
Visible-Thermal Person Re-Identification [17.402673438396345]
本稿では,VT Re-ID(VT Re-ID)タスクについて述べる。
提案手法は,最先端の手法を大きなマージンで明らかに上回っている。
論文 参考訳(メタデータ) (2020-08-14T07:40:35Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。