論文の概要: RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene
Parsing
- arxiv url: http://arxiv.org/abs/2309.10356v2
- Date: Thu, 8 Feb 2024 02:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 19:11:42.083943
- Title: RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene
Parsing
- Title(参考訳): roadformer:rgb正規意味的道路シーン解析のための2重変圧器
- Authors: Jiahang Li, Yikang Zhang, Peng Yun, Guangliang Zhou, Qijun Chen, Rui
Fan
- Abstract要約: RoadFormer(ロードフォーマー)は、トランスフォーマーベースの道路シーン解析用データフュージョンネットワークである。
RoadFormerは、ロードシーン解析のための最先端ネットワークをすべて上回っている。
- 参考スコア(独自算出の注目度): 18.138582048790152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancements in deep convolutional neural networks have shown
significant promise in the domain of road scene parsing. Nevertheless, the
existing works focus primarily on freespace detection, with little attention
given to hazardous road defects that could compromise both driving safety and
comfort. In this paper, we introduce RoadFormer, a novel Transformer-based
data-fusion network developed for road scene parsing. RoadFormer utilizes a
duplex encoder architecture to extract heterogeneous features from both RGB
images and surface normal information. The encoded features are subsequently
fed into a novel heterogeneous feature synergy block for effective feature
fusion and recalibration. The pixel decoder then learns multi-scale long-range
dependencies from the fused and recalibrated heterogeneous features, which are
subsequently processed by a Transformer decoder to produce the final semantic
prediction. Additionally, we release SYN-UDTIRI, the first large-scale road
scene parsing dataset that contains over 10,407 RGB images, dense depth images,
and the corresponding pixel-level annotations for both freespace and road
defects of different shapes and sizes. Extensive experimental evaluations
conducted on our SYN-UDTIRI dataset, as well as on three public datasets,
including KITTI road, CityScapes, and ORFD, demonstrate that RoadFormer
outperforms all other state-of-the-art networks for road scene parsing.
Specifically, RoadFormer ranks first on the KITTI road benchmark. Our source
code, created dataset, and demo video are publicly available at
mias.group/RoadFormer.
- Abstract(参考訳): 深層畳み込みニューラルネットワークの最近の進歩は、道路シーン解析の領域において大きな可能性を秘めている。
それでも、既存の研究は主に自由空間検出に焦点を当てており、運転安全性と快適性の両方を損なう危険道路の欠陥にはほとんど注意を払わなかった。
本稿では,道路シーン解析のためのトランスフォーマーベースデータ融合ネットワークであるRoadFormerを紹介する。
RoadFormerは2重エンコーダアーキテクチャを用いて、RGB画像と表面正規情報の両方から異種特徴を抽出する。
符号化された特徴はその後、効果的な特徴融合と再校正のための新しい異種特徴相乗ブロックに供給される。
ピクセルデコーダは、融合および再調整された不均一な特徴から複数スケールの長距離依存性を学習し、その後トランスフォーマーデコーダによって処理され、最終的な意味予測を生成する。
さらに,10,407RGB以上の画像,密度深度画像,および異なる形状と大きさの自由空間および道路欠陥に対応するピクセルレベルのアノテーションを含む,最初の大規模道路シーン解析データセットであるSyn-UDTIRIをリリースする。
syn-udtiriデータセットおよびkitti road、cityscapes、orfdを含む3つのパブリックデータセットで行った広範囲な実験的評価では、roadformerは他の最先端のネットワークよりも道路シーン解析に優れていることが示されている。
具体的には、RoadFormerはKITTIロードベンチマークで第1位だ。
ソースコード、データセットの作成、デモビデオは、mias.group/roadformer.comで公開されている。
関連論文リスト
- Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Spatial-Temporal Deep Embedding for Vehicle Trajectory Reconstruction
from High-Angle Video [1.8520147498637294]
車両セグメンテーションのためのインスタンス認識埋め込みをSTMap上に生成するために,画素レベルとインスタンスレベルの両方でパリティ制約を課すモデルを開発した。
デザインされたモデルは、すべてのNGSIM US-101ビデオを処理して完全な車両軌道を生成するために適用される。
論文 参考訳(メタデータ) (2022-09-17T22:32:05Z) - Traffic Congestion Prediction using Deep Convolutional Neural Networks:
A Color-coding Approach [0.0]
本研究では、ディープ畳み込みニューラルネットワークにおけるトラフィックデータをトレーニングする前に、カラー符号化方式を用いたトラフィックビデオ分類のためのユニークな手法を提案する。
まず、ビデオデータを画像データセットに変換し、その後、You Only Look Onceアルゴリズムを用いて車両検出を行う。
UCSDデータセットを用いて98.2%の分類精度を得た。
論文 参考訳(メタデータ) (2022-09-16T14:02:20Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - SPIN Road Mapper: Extracting Roads from Aerial Images via Spatial and
Interaction Space Graph Reasoning for Autonomous Driving [64.10636296274168]
道路抽出は、自律航法システムを構築するための重要なステップである。
この問題に対して単に畳み込みニューラルネットワーク(ConvNets)を使用することは、画像内の道路セグメント間の遠い依存関係をキャプチャする非効率であるため、効果がない。
本研究では,ConvNetに接続した時,特徴写像から投影された空間空間および相互作用空間上に構築されたグラフの推論を行う空間空間グラフ推論(SPIN)モジュールを提案する。
論文 参考訳(メタデータ) (2021-09-16T03:52:17Z) - Spatio-Contextual Deep Network Based Multimodal Pedestrian Detection For
Autonomous Driving [1.2599533416395765]
本稿では,RGBと熱画像を用いた歩行者検出のためのエンドツーエンドマルチモーダル融合モデルを提案する。
その新しいディープネットワークアーキテクチャは、マルチモーダル入力を効率的に活用することができる。
それぞれの結果により,それぞれの最先端性能が向上した。
論文 参考訳(メタデータ) (2021-05-26T17:50:36Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - Convolutional Recurrent Network for Road Boundary Extraction [99.55522995570063]
我々は,LiDARとカメラ画像からの道路境界抽出の問題に取り組む。
我々は,完全畳み込みネットワークが道路境界の位置と方向をエンコードする深い特徴量を得る構造化モデルを設計する。
北米の大都市において,道路境界の完全なトポロジを99.3%の時間で得られる方法の有効性を示す。
論文 参考訳(メタデータ) (2020-12-21T18:59:12Z) - Scribble-based Weakly Supervised Deep Learning for Road Surface
Extraction from Remote Sensing Images [7.1577508803778045]
そこで我々は,ScRoadExtractor という,スクリブルに基づく弱制御路面抽出手法を提案する。
スパーススクリブルからラベルなし画素への意味情報を伝達するために,道路ラベルの伝搬アルゴリズムを導入する。
道路ラベル伝搬アルゴリズムから生成された提案マスクを用いて、デュアルブランチエンコーダデコーダネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-25T12:40:30Z) - VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized
Representation [74.56282712099274]
本稿では,ベクトルで表される個々の道路成分の空間的局所性を利用する階層型グラフニューラルネットワークであるVectorNetを紹介する。
ベクトル化高定義(HD)マップとエージェントトラジェクトリの操作により、ロッキーなレンダリングや計算集約的なConvNetエンコーディングのステップを避けることができる。
我々は、社内行動予測ベンチマークと最近リリースされたArgoverse予測データセットでVectorNetを評価した。
論文 参考訳(メタデータ) (2020-05-08T19:07:03Z) - RoadTagger: Robust Road Attribute Inference with Graph Neural Networks [26.914950002847863]
衛星画像からレーン数や道路タイプなどの道路特性を推定することは困難である。
RoadTaggerは、畳み込みニューラルネットワーク(CNN)とグラフニューラルネットワーク(GNN)を組み合わせて、道路特性を推論するエンドツーエンドアーキテクチャである。
我々は米国20都市の688 km2の領域をカバーする大規模な実世界のデータセットと、合成マイクロデータセットの両方でRoadTaggerを評価した。
論文 参考訳(メタデータ) (2019-12-28T06:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。