論文の概要: DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual
Information for Real-time Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2212.01173v3
- Date: Wed, 13 Sep 2023 14:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 11:23:50.080976
- Title: DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual
Information for Real-time Semantic Segmentation
- Title(参考訳): DWRSeg: リアルタイムセマンティックセグメンテーションのためのマルチスケールコンテキスト情報の効率的な獲得再考
- Authors: Haoran Wei, Xu Liu, Shouchun Xu, Zhongjian Dai, Yaping Dai, Xiangyang
Xu
- Abstract要約: 本研究では,元の単一ステップ法を2段階に分割し,高効率なマルチスケール特徴抽出手法を提案する。
NVIDIA GeForce GTX 1080 TiカードのCityscapesテストセットの72.7%のmIoUを319.5 FPSで達成し、69.5 FPSと0.8% mIoUの最新の手法を超える。
- 参考スコア(独自算出の注目度): 10.379708894083217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many current works directly adopt multi-rate depth-wise dilated convolutions
to capture multi-scale contextual information simultaneously from one input
feature map, thus improving the feature extraction efficiency for real-time
semantic segmentation. However, this design may lead to difficult access to
multi-scale contextual information because of the unreasonable structure and
hyperparameters. To lower the difficulty of drawing multi-scale contextual
information, we propose a highly efficient multi-scale feature extraction
method, which decomposes the original single-step method into two steps, Region
Residualization-Semantic Residualization. In this method, the multi-rate
depth-wise dilated convolutions take a simpler role in feature extraction:
performing simple semantic-based morphological filtering with one desired
receptive field in the second step based on each concise feature map of region
form provided by the first step, to improve their efficiency. Moreover, the
dilation rates and the capacity of dilated convolutions for each network stage
are elaborated to fully utilize all the feature maps of region form that can be
achieved.Accordingly, we design a novel Dilation-wise Residual (DWR) module and
a Simple Inverted Residual (SIR) module for the high and low level network,
respectively, and form a powerful DWR Segmentation (DWRSeg) network. Extensive
experiments on the Cityscapes and CamVid datasets demonstrate the effectiveness
of our method by achieving a state-of-the-art trade-off between accuracy and
inference speed, in addition to being lighter weight. Without pretraining or
resorting to any training trick, we achieve an mIoU of 72.7% on the Cityscapes
test set at a speed of 319.5 FPS on one NVIDIA GeForce GTX 1080 Ti card, which
exceeds the latest methods of a speed of 69.5 FPS and 0.8% mIoU. The code and
trained models are publicly available.
- Abstract(参考訳): 現在の多くの研究は、直接的にマルチレートの奥行きを拡張した畳み込みを用いて、1つの入力特徴写像から同時にマルチスケールの文脈情報をキャプチャすることで、リアルタイムセマンティックセグメンテーションにおける特徴抽出効率を向上させる。
しかし、この設計は、不合理な構造とハイパーパラメータのため、マルチスケールのコンテキスト情報へのアクセスが困難になる可能性がある。
マルチスケールなコンテクスト情報の描画の難しさを軽減するために,元の単一ステップ法を2段階に分割する高効率なマルチスケール特徴抽出手法を提案する。
本手法では、第1ステップによって提供される領域形状の簡潔な特徴写像に基づいて、第2ステップで1つの所望の受容場と単純な意味に基づく形態的フィルタリングを行うことにより、特徴抽出においてより簡単な役割を担い、その効率を向上させる。
さらに,ネットワークステージ毎に拡張率と拡張畳み込み容量を精練し,実現可能な領域形式のすべての特徴マップを十分に活用し,さらに,高レベルネットワークと低レベルネットワーク向けに,新しい拡張ワイズ残差 (dwr) モジュールと簡易反転残差 (sir) モジュールを設計し,強力なdwrセグメント (dwrseg) ネットワークを形成する。
CityscapesとCamVidデータセットの大規模な実験は、より軽量なだけでなく、精度と推論速度の間の最先端のトレードオフを達成して、我々の手法の有効性を実証している。
プレトレーニングやトレーニングのトリックを使わずに、1台のNVIDIA GeForce GTX 1080 Tiカードで319.5 FPSで設定されたCityscapesテストで72.7%のmIoUを達成した。
コードとトレーニングされたモデルは公開されている。
関連論文リスト
- Highly Efficient and Unsupervised Framework for Moving Object Detection in Satellite Videos [0.2023650687546586]
本稿では,SVMODのための高度に効率的な非教師付きフレームワークを提案する。
提案手法は,1024倍画像上で秒間9フレームを処理できるだけでなく,フォアグラウンド・アート・パフォーマンスも実現可能であることを示す。
論文 参考訳(メタデータ) (2024-11-24T16:06:42Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - A Novel Multi-Stage Training Approach for Human Activity Recognition
from Multimodal Wearable Sensor Data Using Deep Neural Network [11.946078871080836]
ディープニューラルネットワークは、さまざまなウェアラブルセンサーのデータを利用して人間の行動を自動的に認識する効果的な選択である。
本論文では,この特徴抽出プロセスにおける多様性を高める,新たなマルチステージトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-01-03T20:48:56Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Parameter Sharing Exploration and Hetero-Center based Triplet Loss for
Visible-Thermal Person Re-Identification [17.402673438396345]
本稿では,VT Re-ID(VT Re-ID)タスクについて述べる。
提案手法は,最先端の手法を大きなマージンで明らかに上回っている。
論文 参考訳(メタデータ) (2020-08-14T07:40:35Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。