Fugu-MT 論文翻訳(概要): RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing

論文の概要: RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing

arxiv url: http://arxiv.org/abs/2309.10356v2
Date: Thu, 8 Feb 2024 02:10:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 19:11:42.083943
Title: RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing
Title（参考訳）: roadformer:rgb正規意味的道路シーン解析のための2重変圧器
Authors: Jiahang Li, Yikang Zhang, Peng Yun, Guangliang Zhou, Qijun Chen, Rui Fan
Abstract要約: RoadFormer(ロードフォーマー)は、トランスフォーマーベースの道路シーン解析用データフュージョンネットワークである。 RoadFormerは、ロードシーン解析のための最先端ネットワークをすべて上回っている。
参考スコア（独自算出の注目度）: 18.138582048790152
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent advancements in deep convolutional neural networks have shown significant promise in the domain of road scene parsing. Nevertheless, the existing works focus primarily on freespace detection, with little attention given to hazardous road defects that could compromise both driving safety and comfort. In this paper, we introduce RoadFormer, a novel Transformer-based data-fusion network developed for road scene parsing. RoadFormer utilizes a duplex encoder architecture to extract heterogeneous features from both RGB images and surface normal information. The encoded features are subsequently fed into a novel heterogeneous feature synergy block for effective feature fusion and recalibration. The pixel decoder then learns multi-scale long-range dependencies from the fused and recalibrated heterogeneous features, which are subsequently processed by a Transformer decoder to produce the final semantic prediction. Additionally, we release SYN-UDTIRI, the first large-scale road scene parsing dataset that contains over 10,407 RGB images, dense depth images, and the corresponding pixel-level annotations for both freespace and road defects of different shapes and sizes. Extensive experimental evaluations conducted on our SYN-UDTIRI dataset, as well as on three public datasets, including KITTI road, CityScapes, and ORFD, demonstrate that RoadFormer outperforms all other state-of-the-art networks for road scene parsing. Specifically, RoadFormer ranks first on the KITTI road benchmark. Our source code, created dataset, and demo video are publicly available at mias.group/RoadFormer.
Abstract（参考訳）: 深層畳み込みニューラルネットワークの最近の進歩は、道路シーン解析の領域において大きな可能性を秘めている。それでも、既存の研究は主に自由空間検出に焦点を当てており、運転安全性と快適性の両方を損なう危険道路の欠陥にはほとんど注意を払わなかった。本稿では,道路シーン解析のためのトランスフォーマーベースデータ融合ネットワークであるRoadFormerを紹介する。 RoadFormerは2重エンコーダアーキテクチャを用いて、RGB画像と表面正規情報の両方から異種特徴を抽出する。符号化された特徴はその後、効果的な特徴融合と再校正のための新しい異種特徴相乗ブロックに供給される。ピクセルデコーダは、融合および再調整された不均一な特徴から複数スケールの長距離依存性を学習し、その後トランスフォーマーデコーダによって処理され、最終的な意味予測を生成する。さらに,10,407RGB以上の画像,密度深度画像,および異なる形状と大きさの自由空間および道路欠陥に対応するピクセルレベルのアノテーションを含む,最初の大規模道路シーン解析データセットであるSyn-UDTIRIをリリースする。 syn-udtiriデータセットおよびkitti road、cityscapes、orfdを含む3つのパブリックデータセットで行った広範囲な実験的評価では、roadformerは他の最先端のネットワークよりも道路シーン解析に優れていることが示されている。具体的には、RoadFormerはKITTIロードベンチマークで第1位だ。ソースコード、データセットの作成、デモビデオは、mias.group/roadformer.comで公開されている。

関連論文リスト

Driving on Registers [95.27138642798472]
DrivoRは、エンドツーエンドの自動運転のためのシンプルで効率的なトランスフォーマーベースのアーキテクチャである。提案手法は、事前訓練された視覚変換器(ViT)上に構築され、マルチカメラ機能をコンパクトなシーン表現に圧縮するカメラ対応レジスタトークンを導入している。この結果から,純変圧器アーキテクチャと目標トークン圧縮を組み合わせることで,高精度で適応的なエンド・ツー・エンド・ドライブを実現するのに十分であることが示唆された。
論文参考訳（メタデータ） (2026-01-08T16:28:24Z)
Towards Efficient and Effective Multi-Camera Encoding for End-to-End Driving [54.85072592658933]
本稿では,自動運転における高ボリュームマルチカメラデータ処理の計算ボトルネックに対処する,効率的かつ効率的なシーンエンコーダFlexを提案する。設計上,我々のアプローチは幾何学的非依存であり,明快な3次元帰納バイアスに頼ることなく,データから直接コンパクトなシーン表現を学習する。我々の研究は、データ駆動型共同符号化戦略が将来の自動運転システムにおいて、よりスケーラブルで効率的かつ効果的な経路を提供することを示すために、3Dプリエントが不可欠であるという一般的な仮定に挑戦する。
論文参考訳（メタデータ） (2025-12-11T18:59:46Z)
Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction [9.833728353188132]
我々はWildRoadをリリースした。WildRoadは対話型アノテーションツールで効率的に構築されたグローバルオフロードロードネットワークデータセットである。我々は,パス中心のフレームワークであるMaGRoadを紹介した。 MaGRoadは、挑戦的なWildRoadベンチマークで最先端のパフォーマンスを達成し、都市データセットに最適化します。
論文参考訳（メタデータ） (2025-12-11T08:29:27Z)
RoadFormer+: Delivering RGB-X Scene Parsing through Scale-Aware Information Decoupling and Advanced Heterogeneous Feature Fusion [23.08593450089786]
RoadFormerは、RGB画像と表面正規地図から不均一な特徴を抽出することに成功した。 RoadFormer+は、ディープ、サーマル、サーフェスノーマル、ポーラライゼーションなどのデータの追加タイプ/モダリティを表す。 RoadFormer+ は KITTI Road ベンチマークで第1位にランクインし、組合間の交差平均で最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-07-31T14:25:16Z)
NeRO: Neural Road Surface Reconstruction [15.99050337416157]
本稿では,道路路面を設計するためのMLP(Multi-Layer Perceptrons)フレームワークを設計し,世界座標x,yとして入力し,高さ,色,意味情報として出力する。本手法の有効性は,車載カメラのポーズ,LiDAR点雲,SFM点雲などの道路高度源との互換性,スパースラベルやノイズセマンティック予測などの画像のセマンティックノイズに対する堅牢性,高速なトレーニング速度などにより実証される。
論文参考訳（メタデータ） (2024-05-17T05:41:45Z)
Homography Guided Temporal Fusion for Road Line and Marking Segmentation [73.47092021519245]
道路線やマーキングは、移動車両、影、グレアの存在下でしばしば閉鎖される。本稿では,映像フレームを補足的に利用するHomography Guided Fusion (HomoFusion) モジュールを提案する。カメラ固有のデータと地上平面の仮定をクロスフレーム対応に利用することにより,高速・高精度性能が向上した軽量ネットワークの実現が期待できることを示す。
論文参考訳（メタデータ） (2024-04-11T10:26:40Z)
EMIE-MAP: Large-Scale Road Surface Reconstruction Based on Explicit Mesh and Implicit Encoding [21.117919848535422]
EMIE-MAPは,暗黙的メッシュと暗黙的符号化に基づく大規模道路表面再構成手法である。本手法は,様々な現実の難易度シナリオにおいて,顕著な路面復元性能を実現する。
論文参考訳（メタデータ） (2024-03-18T13:46:52Z)
Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文参考訳（メタデータ） (2024-02-20T01:43:51Z)
Traffic Congestion Prediction using Deep Convolutional Neural Networks: A Color-coding Approach [0.0]
本研究では、ディープ畳み込みニューラルネットワークにおけるトラフィックデータをトレーニングする前に、カラー符号化方式を用いたトラフィックビデオ分類のためのユニークな手法を提案する。まず、ビデオデータを画像データセットに変換し、その後、You Only Look Onceアルゴリズムを用いて車両検出を行う。 UCSDデータセットを用いて98.2%の分類精度を得た。
論文参考訳（メタデータ） (2022-09-16T14:02:20Z)
Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。 CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文参考訳（メタデータ） (2021-11-30T04:30:10Z)
SPIN Road Mapper: Extracting Roads from Aerial Images via Spatial and Interaction Space Graph Reasoning for Autonomous Driving [64.10636296274168]
道路抽出は、自律航法システムを構築するための重要なステップである。この問題に対して単に畳み込みニューラルネットワーク(ConvNets)を使用することは、画像内の道路セグメント間の遠い依存関係をキャプチャする非効率であるため、効果がない。本研究では,ConvNetに接続した時,特徴写像から投影された空間空間および相互作用空間上に構築されたグラフの推論を行う空間空間グラフ推論(SPIN)モジュールを提案する。
論文参考訳（メタデータ） (2021-09-16T03:52:17Z)
Convolutional Recurrent Network for Road Boundary Extraction [99.55522995570063]
我々は,LiDARとカメラ画像からの道路境界抽出の問題に取り組む。我々は,完全畳み込みネットワークが道路境界の位置と方向をエンコードする深い特徴量を得る構造化モデルを設計する。北米の大都市において,道路境界の完全なトポロジを99.3%の時間で得られる方法の有効性を示す。
論文参考訳（メタデータ） (2020-12-21T18:59:12Z)
Scribble-based Weakly Supervised Deep Learning for Road Surface Extraction from Remote Sensing Images [7.1577508803778045]
そこで我々は,ScRoadExtractor という,スクリブルに基づく弱制御路面抽出手法を提案する。スパーススクリブルからラベルなし画素への意味情報を伝達するために,道路ラベルの伝搬アルゴリズムを導入する。道路ラベル伝搬アルゴリズムから生成された提案マスクを用いて、デュアルブランチエンコーダデコーダネットワークを訓練する。
論文参考訳（メタデータ） (2020-10-25T12:40:30Z)
VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation [74.56282712099274]
本稿では,ベクトルで表される個々の道路成分の空間的局所性を利用する階層型グラフニューラルネットワークであるVectorNetを紹介する。ベクトル化高定義(HD)マップとエージェントトラジェクトリの操作により、ロッキーなレンダリングや計算集約的なConvNetエンコーディングのステップを避けることができる。我々は、社内行動予測ベンチマークと最近リリースされたArgoverse予測データセットでVectorNetを評価した。
論文参考訳（メタデータ） (2020-05-08T19:07:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。