論文の概要: Deep Dual-resolution Networks for Real-time and Accurate Semantic
Segmentation of Road Scenes
- arxiv url: http://arxiv.org/abs/2101.06085v1
- Date: Fri, 15 Jan 2021 12:56:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:19:57.774423
- Title: Deep Dual-resolution Networks for Real-time and Accurate Semantic
Segmentation of Road Scenes
- Title(参考訳): 道路シーンのリアルタイム・高精度セグメンテーションのためのディープ・デュアルレゾリューションネットワーク
- Authors: Yuanduo Hong, Huihui Pan, Weichao Sun, Senior Member, IEEE, Yisong Jia
- Abstract要約: 道路シーンのリアルタイムセマンティックセグメンテーションのための新しいディープデュアルリゾリューションネットワーク(DDRNets)を提案する。
提案手法は,Cityscapes と CamVid 両方のデータセットにおける精度と速度の新たなトレードオフを実現する。
- 参考スコア(独自算出の注目度): 0.23090185577016442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation is a critical technology for autonomous vehicles to
understand surrounding scenes. For practical autonomous vehicles, it is
undesirable to spend a considerable amount of inference time to achieve
high-accuracy segmentation results. Using light-weight architectures
(encoder-decoder or two-pathway) or reasoning on low-resolution images, recent
methods realize very fast scene parsing which even run at more than 100 FPS on
single 1080Ti GPU. However, there are still evident gaps in performance between
these real-time methods and models based on dilation backbones. To tackle this
problem, we propose novel deep dual-resolution networks (DDRNets) for real-time
semantic segmentation of road scenes. Besides, we design a new contextual
information extractor named Deep Aggregation Pyramid Pooling Module (DAPPM) to
enlarge effective receptive fields and fuse multi-scale context. Our method
achieves new state-of-the-art trade-off between accuracy and speed on both
Cityscapes and CamVid dataset. Specially, on single 2080Ti GPU, DDRNet-23-slim
yields 77.4% mIoU at 109 FPS on Cityscapes test set and 74.4% mIoU at 230 FPS
on CamVid test set. Without utilizing attention mechanism, pre-training on
larger semantic segmentation dataset or inference acceleration, DDRNet-39
attains 80.4% test mIoU at 23 FPS on Cityscapes. With widely used test
augmentation, our method is still superior to most state-of-the-art models,
requiring much less computation. Codes and trained models will be made publicly
available.
- Abstract(参考訳): セマンティックセグメンテーションは、自動運転車が周囲のシーンを理解するための重要な技術である。
実用的な自動運転車では、高い精度のセグメンテーション結果を達成するためにかなりの量の推論時間を費やすことは望ましくない。
軽量アーキテクチャ(エンコーダデコーダまたは2経路)や低解像度画像の推論を用いて、最近の手法では、100 FPS以上のシーン解析を単一の1080Ti GPU上で行うことができる。
しかしながら、これらのリアルタイムメソッドとダイレーションバックボーンに基づくモデルの間には、依然として明らかなギャップがある。
そこで本稿では,道路シーンのリアルタイムセマンティクスセグメンテーションのためのディープ・デュアルレゾリューション・ネットワーク(ddrnets)を提案する。
さらに,DAPPM(Deep Aggregation Pyramid Pooling Module)と呼ばれる新しいコンテキスト情報抽出器を設計し,有効受容領域を拡大し,マルチスケールコンテキストを融合する。
提案手法は,CityscapesとCamVidのデータセットの精度と速度の新たなトレードオフを実現する。
特にシングル2080Ti GPUでは、DDRNet-23-slimはCityscapesテストセットで109 FPSで77.4% mIoU、CamVidテストセットで230 FPSで74.4% mIoUとなる。
アテンション機構や、より大きなセマンティクスセグメンテーションデータセットや推論アクセラレーションを事前トレーニングすることなく、ddrnet-39は23fpsで80.4%のテストmiouを達成する。
広く使われているテスト拡張では、この手法は最先端モデルよりも優れており、計算量もはるかに少ない。
コードとトレーニングされたモデルは公開されます。
関連論文リスト
- Cross-CBAM: A Lightweight network for Scene Segmentation [2.064612766965483]
リアルタイムセマンティックセグメンテーションのための新しい軽量ネットワークであるCross-CBAMネットワークを提案する。
CityscapesデータセットとCamvidデータセットの実験では、73.4% mIoU、240.9FPS、77.2% mIoU、NVIDIA GTX 1080Tiで88.6FPSを達成した。
論文 参考訳(メタデータ) (2023-06-04T09:03:05Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - Spatio-Temporal Scene-Graph Embedding for Autonomous Vehicle Collision
Prediction [0.3738410998183615]
sg2vecは、合成データセットの最先端手法よりも8.11%精度で衝突を予測する。
また、sg2vecは、合成データセットから実世界の運転データセットへ知識を伝達する最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-11T10:01:01Z) - Rethinking BiSeNet For Real-time Semantic Segmentation [6.622485130017622]
BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
本稿では,stdc( short-term dense concatenate network)と呼ばれる新しい構造を提案する。
論文 参考訳(メタデータ) (2021-04-27T13:49:47Z) - Real-time Semantic Segmentation with Context Aggregation Network [14.560708848716754]
本稿では,2分岐畳み込みニューラルネットワークを提案する。
本研究では,2つのセマンティックセグメンテーションデータセット,すなわちCityscapesデータセットとUAVidデータセットについて評価を行った。
論文 参考訳(メタデータ) (2020-11-02T14:16:23Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。