論文の概要: M^2-3DLaneNet: Multi-Modal 3D Lane Detection
- arxiv url: http://arxiv.org/abs/2209.05996v1
- Date: Tue, 13 Sep 2022 13:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:58:40.839376
- Title: M^2-3DLaneNet: Multi-Modal 3D Lane Detection
- Title(参考訳): M^2-3DLaneNet:マルチモーダル3Dレーン検出
- Authors: Yueru Luo, Xu Yan, Chaoda Zheng, Chao Zheng, Shuqi Mei, Tang Kun,
Shuguang Cui, Zhen Li
- Abstract要約: M2-3DLaneNetは効率的な3Dレーン検出のためのマルチモードフレームワークである。
M2-3DLaneNetはまず、モーダル固有のバックボーンでマルチモーダル機能を抽出し、それらを統一されたBird's-Eye View空間に融合させる。
- 参考スコア(独自算出の注目度): 30.250833348463633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating accurate lane lines in 3D space remains challenging due to their
sparse and slim nature. In this work, we propose the M^2-3DLaneNet, a
Multi-Modal framework for effective 3D lane detection. Aiming at integrating
complementary information from multi-sensors, M^2-3DLaneNet first extracts
multi-modal features with modal-specific backbones, then fuses them in a
unified Bird's-Eye View (BEV) space. Specifically, our method consists of two
core components. 1) To achieve accurate 2D-3D mapping, we propose the top-down
BEV generation. Within it, a Line-Restricted Deform-Attention (LRDA) module is
utilized to effectively enhance image features in a top-down manner, fully
capturing the slenderness features of lanes. After that, it casts the 2D
pyramidal features into 3D space using depth-aware lifting and generates BEV
features through pillarization. 2) We further propose the bottom-up BEV fusion,
which aggregates multi-modal features through multi-scale cascaded attention,
integrating complementary information from camera and LiDAR sensors. Sufficient
experiments demonstrate the effectiveness of M^2-3DLaneNet, which outperforms
previous state-of-the-art methods by a large margin, i.e., 12.1% F1-score
improvement on OpenLane dataset.
- Abstract(参考訳): 3d空間における正確なレーン線の推定は、その希薄な性質のため、依然として困難である。
本研究では,実効的3次元レーン検出のためのマルチモーダルフレームワークであるm^2-3dlanenetを提案する。
M^2-3DLaneNetは、マルチセンサーからの補完情報を統合することを目的として、まず、モーダル固有のバックボーンでマルチモーダル特徴を抽出し、それらを統一されたBird's-Eye View (BEV)空間に融合する。
具体的には,2つのコアコンポーネントから構成される。
1) 正確な2D-3Dマッピングを実現するために, トップダウンのBEV生成を提案する。
その内部では、Line-Restricted Deform-Attention (LRDA)モジュールを使用して、レーンの細い特徴を完全にキャプチャし、トップダウンで画像特徴を効果的に強化する。
その後、深度対応リフトを使用して2Dピラミッドの特徴を3D空間に投入し、ピラリゼーションによりBEV特徴を生成する。
2) カメラとLiDARセンサの相補的情報の統合により, マルチモーダルな特徴を集約するボトムアップ型BEV融合を提案する。
M^2-3DLaneNetは従来の最先端手法よりも大きなマージン、すなわちOpenLaneデータセットの12.1%のF1スコア改善を達成している。
関連論文リスト
- GAFusion: Adaptive Fusing LiDAR and Camera with Multiple Guidance for 3D Object Detection [36.37236815038332]
GAFusion と呼ばれる,LiDAR による大域的相互作用と適応融合を備えた新しい多モード3Dオブジェクト検出法を提案する。
GAFusionは73.6$%$mAPと74.9$%$NDSで最先端の3Dオブジェクト検出結果を達成する。
論文 参考訳(メタデータ) (2024-11-01T03:40:24Z) - SpotNet: An Image Centric, Lidar Anchored Approach To Long Range Perception [3.627834388176496]
SpotNetは高速で単一ステージのイメージ中心だが、長距離3Dオブジェクト検出のためのLiDARアンロックアプローチである。
我々は,LiDAR/画像センサフュージョンへのアプローチと2次元および3次元検出タスクの連成学習が組み合わさって,LiDARの精度が低い3次元物体検出に繋がることを示した。
論文 参考訳(メタデータ) (2024-05-24T17:25:48Z) - Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。
本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。
3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文 参考訳(メタデータ) (2024-04-10T03:54:53Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Frustum Fusion: Pseudo-LiDAR and LiDAR Fusion for 3D Detection [0.0]
本稿では,立体対から得られる高精度な点雲と,密度が高いが精度の低い点雲を結合する新しいデータ融合アルゴリズムを提案する。
我々は複数の3次元物体検出法を訓練し、核融合戦略が検出器の性能を継続的に改善することを示す。
論文 参考訳(メタデータ) (2021-11-08T19:29:59Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - MLOD: Awareness of Extrinsic Perturbation in Multi-LiDAR 3D Object
Detection for Autonomous Driving [10.855519369371853]
外部摂動は常に複数のセンサーに存在する。
MLODと呼ばれるマルチLiDAR3Dオブジェクト検出器を提案する。
実世界のデータセットで広範な実験を行う。
論文 参考訳(メタデータ) (2020-09-29T06:11:22Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。