論文の概要: RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing
- arxiv url: http://arxiv.org/abs/2309.10356v3
- Date: Fri, 12 Apr 2024 05:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 19:45:17.504241
- Title: RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing
- Title(参考訳): RoadFormer: RGB-Normal Semantic Road Scene Parsing用Duplex Transformer
- Authors: Jiahang Li, Yikang Zhang, Peng Yun, Guangliang Zhou, Qijun Chen, Rui Fan,
- Abstract要約: RoadFormer(ロードフォーマー)は、トランスフォーマーベースの道路シーン解析用データフュージョンネットワークである。
RoadFormerは、ロードシーン解析のための最先端ネットワークをすべて上回っている。
- 参考スコア(独自算出の注目度): 17.118074007418123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancements in deep convolutional neural networks have shown significant promise in the domain of road scene parsing. Nevertheless, the existing works focus primarily on freespace detection, with little attention given to hazardous road defects that could compromise both driving safety and comfort. In this paper, we introduce RoadFormer, a novel Transformer-based data-fusion network developed for road scene parsing. RoadFormer utilizes a duplex encoder architecture to extract heterogeneous features from both RGB images and surface normal information. The encoded features are subsequently fed into a novel heterogeneous feature synergy block for effective feature fusion and recalibration. The pixel decoder then learns multi-scale long-range dependencies from the fused and recalibrated heterogeneous features, which are subsequently processed by a Transformer decoder to produce the final semantic prediction. Additionally, we release SYN-UDTIRI, the first large-scale road scene parsing dataset that contains over 10,407 RGB images, dense depth images, and the corresponding pixel-level annotations for both freespace and road defects of different shapes and sizes. Extensive experimental evaluations conducted on our SYN-UDTIRI dataset, as well as on three public datasets, including KITTI road, CityScapes, and ORFD, demonstrate that RoadFormer outperforms all other state-of-the-art networks for road scene parsing. Specifically, RoadFormer ranks first on the KITTI road benchmark. Our source code, created dataset, and demo video are publicly available at mias.group/RoadFormer.
- Abstract(参考訳): 深層畳み込みニューラルネットワークの最近の進歩は、道路シーン解析の領域において大きな可能性を秘めている。
それでも、既存の研究は主に自由空間検出に焦点を当てており、運転安全性と快適性の両方を損なう危険道路の欠陥にはほとんど注意を払わなかった。
本稿では,道路シーン解析用に開発されたトランスフォーマーベースの新しいデータ融合ネットワークであるRoadFormerを紹介する。
RoadFormerは2重エンコーダアーキテクチャを用いて、RGB画像と表面正規情報の両方から異種特徴を抽出する。
符号化された特徴はその後、効果的な特徴融合と再校正のための新しい異種特徴相乗ブロックに供給される。
その後、画素デコーダは、融合された不均一な特徴からマルチスケールの長距離依存関係を学習し、後にトランスフォーマーデコーダによって処理され、最終的な意味予測を生成する。
さらに,10,407RGB以上の画像,密度深度画像,および異なる形状と大きさの自由空間および道路欠陥に対応するピクセルレベルのアノテーションを含む,最初の大規模道路シーン解析データセットであるSyn-UDTIRIをリリースする。
我々のSyman-UDTIRIデータセットと、KITTI Road、CityScapes、ORFDを含む3つの公開データセットで実施された大規模な実験的評価により、RoadFormerは、道路シーン解析のための他の最先端ネットワークよりも優れていることが示された。
具体的には、RoadFormerはKITTIロードベンチマークで第1位だ。
私たちのソースコード、生成されたデータセット、デモビデオは、mias.group/RoadFormerで公開されています。
関連論文リスト
- RoadFormer+: Delivering RGB-X Scene Parsing through Scale-Aware Information Decoupling and Advanced Heterogeneous Feature Fusion [23.08593450089786]
RoadFormerは、RGB画像と表面正規地図から不均一な特徴を抽出することに成功した。
RoadFormer+は、ディープ、サーマル、サーフェスノーマル、ポーラライゼーションなどのデータの追加タイプ/モダリティを表す。
RoadFormer+ は KITTI Road ベンチマークで第1位にランクインし、組合間の交差平均で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-07-31T14:25:16Z) - NeRO: Neural Road Surface Reconstruction [15.99050337416157]
本稿では,道路路面を設計するためのMLP(Multi-Layer Perceptrons)フレームワークを設計し,世界座標x,yとして入力し,高さ,色,意味情報として出力する。
本手法の有効性は,車載カメラのポーズ,LiDAR点雲,SFM点雲などの道路高度源との互換性,スパースラベルやノイズセマンティック予測などの画像のセマンティックノイズに対する堅牢性,高速なトレーニング速度などにより実証される。
論文 参考訳(メタデータ) (2024-05-17T05:41:45Z) - Homography Guided Temporal Fusion for Road Line and Marking Segmentation [73.47092021519245]
道路線やマーキングは、移動車両、影、グレアの存在下でしばしば閉鎖される。
本稿では,映像フレームを補足的に利用するHomography Guided Fusion (HomoFusion) モジュールを提案する。
カメラ固有のデータと地上平面の仮定をクロスフレーム対応に利用することにより,高速・高精度性能が向上した軽量ネットワークの実現が期待できることを示す。
論文 参考訳(メタデータ) (2024-04-11T10:26:40Z) - EMIE-MAP: Large-Scale Road Surface Reconstruction Based on Explicit Mesh and Implicit Encoding [21.117919848535422]
EMIE-MAPは,暗黙的メッシュと暗黙的符号化に基づく大規模道路表面再構成手法である。
本手法は,様々な現実の難易度シナリオにおいて,顕著な路面復元性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T13:46:52Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Traffic Congestion Prediction using Deep Convolutional Neural Networks:
A Color-coding Approach [0.0]
本研究では、ディープ畳み込みニューラルネットワークにおけるトラフィックデータをトレーニングする前に、カラー符号化方式を用いたトラフィックビデオ分類のためのユニークな手法を提案する。
まず、ビデオデータを画像データセットに変換し、その後、You Only Look Onceアルゴリズムを用いて車両検出を行う。
UCSDデータセットを用いて98.2%の分類精度を得た。
論文 参考訳(メタデータ) (2022-09-16T14:02:20Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - SPIN Road Mapper: Extracting Roads from Aerial Images via Spatial and
Interaction Space Graph Reasoning for Autonomous Driving [64.10636296274168]
道路抽出は、自律航法システムを構築するための重要なステップである。
この問題に対して単に畳み込みニューラルネットワーク(ConvNets)を使用することは、画像内の道路セグメント間の遠い依存関係をキャプチャする非効率であるため、効果がない。
本研究では,ConvNetに接続した時,特徴写像から投影された空間空間および相互作用空間上に構築されたグラフの推論を行う空間空間グラフ推論(SPIN)モジュールを提案する。
論文 参考訳(メタデータ) (2021-09-16T03:52:17Z) - Convolutional Recurrent Network for Road Boundary Extraction [99.55522995570063]
我々は,LiDARとカメラ画像からの道路境界抽出の問題に取り組む。
我々は,完全畳み込みネットワークが道路境界の位置と方向をエンコードする深い特徴量を得る構造化モデルを設計する。
北米の大都市において,道路境界の完全なトポロジを99.3%の時間で得られる方法の有効性を示す。
論文 参考訳(メタデータ) (2020-12-21T18:59:12Z) - Scribble-based Weakly Supervised Deep Learning for Road Surface
Extraction from Remote Sensing Images [7.1577508803778045]
そこで我々は,ScRoadExtractor という,スクリブルに基づく弱制御路面抽出手法を提案する。
スパーススクリブルからラベルなし画素への意味情報を伝達するために,道路ラベルの伝搬アルゴリズムを導入する。
道路ラベル伝搬アルゴリズムから生成された提案マスクを用いて、デュアルブランチエンコーダデコーダネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-25T12:40:30Z) - VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized
Representation [74.56282712099274]
本稿では,ベクトルで表される個々の道路成分の空間的局所性を利用する階層型グラフニューラルネットワークであるVectorNetを紹介する。
ベクトル化高定義(HD)マップとエージェントトラジェクトリの操作により、ロッキーなレンダリングや計算集約的なConvNetエンコーディングのステップを避けることができる。
我々は、社内行動予測ベンチマークと最近リリースされたArgoverse予測データセットでVectorNetを評価した。
論文 参考訳(メタデータ) (2020-05-08T19:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。