論文の概要: Exploiting Low-level Representations for Ultra-Fast Road Segmentation
- arxiv url: http://arxiv.org/abs/2402.02430v1
- Date: Sun, 4 Feb 2024 09:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:50:47.940140
- Title: Exploiting Low-level Representations for Ultra-Fast Road Segmentation
- Title(参考訳): 超高速道路セグメンテーションにおける低レベル表現の活用
- Authors: Huan Zhou, Feng Xue, Yucong Li, Shi Gong, Yiqun Li, Yu Zhou
- Abstract要約: セグメント化のための低レベル特徴支配道路ネットワーク(LFD-RoadSeg)を提案する。
KITTI-RoadSegでは、LFD-RoadSegは最大F1測定値(MaxF)95.21%、平均精度93.71%を達成する一方、TITAN Xpでは238FPS、Jetson TX2では54FPSに達する。
- 参考スコア(独自算出の注目度): 17.33823197718619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving real-time and accuracy on embedded platforms has always been the
pursuit of road segmentation methods. To this end, they have proposed many
lightweight networks. However, they ignore the fact that roads are "stuff"
(background or environmental elements) rather than "things" (specific
identifiable objects), which inspires us to explore the feasibility of
representing roads with low-level instead of high-level features. Surprisingly,
we find that the primary stage of mainstream network models is sufficient to
represent most pixels of the road for segmentation. Motivated by this, we
propose a Low-level Feature Dominated Road Segmentation network (LFD-RoadSeg).
Specifically, LFD-RoadSeg employs a bilateral structure. The spatial detail
branch is firstly designed to extract low-level feature representation for the
road by the first stage of ResNet-18. To suppress texture-less regions mistaken
as the road in the low-level feature, the context semantic branch is then
designed to extract the context feature in a fast manner. To this end, in the
second branch, we asymmetrically downsample the input image and design an
aggregation module to achieve comparable receptive fields to the third stage of
ResNet-18 but with less time consumption. Finally, to segment the road from the
low-level feature, a selective fusion module is proposed to calculate
pixel-wise attention between the low-level representation and context feature,
and suppress the non-road low-level response by this attention. On KITTI-Road,
LFD-RoadSeg achieves a maximum F1-measure (MaxF) of 95.21% and an average
precision of 93.71%, while reaching 238 FPS on a single TITAN Xp and 54 FPS on
a Jetson TX2, all with a compact model size of just 936k parameters. The source
code is available at https://github.com/zhouhuan-hust/LFD-RoadSeg.
- Abstract(参考訳): 組込みプラットフォーム上でのリアルタイムおよび精度の実現は常に道路分割手法の追求であった。
そのため、多くの軽量ネットワークが提案されている。
しかし、道路は「物」(特定の識別可能な物体)ではなく「地中」であるという事実を無視し、ハイレベルな特徴ではなく低レベルな道路を表現できる可能性を探るきっかけとなる。
意外なことに、主流ネットワークモデルの第一段階は、セグメント化のための道路のほとんどのピクセルを表すのに十分である。
そこで我々は,低レベル道路分割ネットワーク(LFD-RoadSeg)を提案する。
具体的には、LFD-RoadSegは両側構造を採用している。
空間詳細分岐はまずResNet-18の第1段までに道路の低レベル特徴表現を抽出するように設計されている。
低レベル特徴において、道路と誤認されるテクスチャレス領域を抑制するために、コンテキスト意味分枝を高速にコンテキスト特徴を抽出するように設計する。
この目的のために、第2ブランチでは、入力画像を非対称にダウンサンプルし、ResNet-18の第3ステージに匹敵する受容場を実現するために集約モジュールを設計する。
最後に、低レベル特徴から道路を区分するために、低レベル表現とコンテキスト特徴の間の画素毎の注意度を計算し、この注意による非ロード低レベル応答を抑制する選択的融合モジュールを提案する。
KITTI-RoadSegでは、LFD-RoadSegは最大F1測定値(MaxF)95.21%、平均精度93.71%を達成し、Jetson TX2ではTITAN Xpで238FPS、Jetson TX2では54FPSに到達した。
ソースコードはhttps://github.com/zhouhuan-hust/lfd-roadsegで入手できる。
関連論文リスト
- RoadFormer+: Delivering RGB-X Scene Parsing through Scale-Aware Information Decoupling and Advanced Heterogeneous Feature Fusion [23.08593450089786]
RoadFormerは、RGB画像と表面正規地図から不均一な特徴を抽出することに成功した。
RoadFormer+は、ディープ、サーマル、サーフェスノーマル、ポーラライゼーションなどのデータの追加タイプ/モダリティを表す。
RoadFormer+ は KITTI Road ベンチマークで第1位にランクインし、組合間の交差平均で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-07-31T14:25:16Z) - RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing [17.118074007418123]
RoadFormer(ロードフォーマー)は、トランスフォーマーベースの道路シーン解析用データフュージョンネットワークである。
RoadFormerは、ロードシーン解析のための最先端ネットワークをすべて上回っている。
論文 参考訳(メタデータ) (2023-09-19T06:32:19Z) - Detection-segmentation convolutional neural network for autonomous
vehicle perception [0.0]
物体検出とセグメンテーションは、自動運転車の認識システムの2つの中核モジュールである。
現在最もよく使われているアルゴリズムはディープニューラルネットワークに基づいており、高い効率性を保証するが、高性能なコンピューティングプラットフォームを必要とする。
ネットワークの複雑さの低減は、適切なアーキテクチャ、表現、コンピューティングプラットフォームを使用することで達成できる。
論文 参考訳(メタデータ) (2023-06-30T08:54:52Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - SPIN Road Mapper: Extracting Roads from Aerial Images via Spatial and
Interaction Space Graph Reasoning for Autonomous Driving [64.10636296274168]
道路抽出は、自律航法システムを構築するための重要なステップである。
この問題に対して単に畳み込みニューラルネットワーク(ConvNets)を使用することは、画像内の道路セグメント間の遠い依存関係をキャプチャする非効率であるため、効果がない。
本研究では,ConvNetに接続した時,特徴写像から投影された空間空間および相互作用空間上に構築されたグラフの推論を行う空間空間グラフ推論(SPIN)モジュールを提案する。
論文 参考訳(メタデータ) (2021-09-16T03:52:17Z) - Rethinking BiSeNet For Real-time Semantic Segmentation [6.622485130017622]
BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
本稿では,stdc( short-term dense concatenate network)と呼ばれる新しい構造を提案する。
論文 参考訳(メタデータ) (2021-04-27T13:49:47Z) - Deep Dual-resolution Networks for Real-time and Accurate Semantic
Segmentation of Road Scenes [0.23090185577016442]
道路シーンのリアルタイムセマンティックセグメンテーションのための新しいディープデュアルリゾリューションネットワーク(DDRNets)を提案する。
提案手法は,Cityscapes と CamVid 両方のデータセットにおける精度と速度の新たなトレードオフを実現する。
論文 参考訳(メタデータ) (2021-01-15T12:56:18Z) - Convolutional Recurrent Network for Road Boundary Extraction [99.55522995570063]
我々は,LiDARとカメラ画像からの道路境界抽出の問題に取り組む。
我々は,完全畳み込みネットワークが道路境界の位置と方向をエンコードする深い特徴量を得る構造化モデルを設計する。
北米の大都市において,道路境界の完全なトポロジを99.3%の時間で得られる方法の有効性を示す。
論文 参考訳(メタデータ) (2020-12-21T18:59:12Z) - BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation [118.46210049742993]
バイラテラル空間ネットワーク(BiSeNet V2)と呼ばれる,速度と精度のトレードオフが良好である効率的なアーキテクチャを提案する。
2,048x1の入力に対して、我々はCityscapesテストセットで72.6%の平均IoUを1つのNVIDIA GeForce 1080 Tiカードで156 FPSで達成した。
論文 参考訳(メタデータ) (2020-04-05T10:26:38Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。