論文の概要: DV-3DLane: End-to-end Multi-modal 3D Lane Detection with Dual-view Representation
- arxiv url: http://arxiv.org/abs/2406.16072v1
- Date: Sun, 23 Jun 2024 10:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 19:13:57.656677
- Title: DV-3DLane: End-to-end Multi-modal 3D Lane Detection with Dual-view Representation
- Title(参考訳): DV-3DLane:デュアルビュー表現によるエンドツーエンドのマルチモーダル3Dレーン検出
- Authors: Yueru Luo, Shuguang Cui, Zhen Li,
- Abstract要約: DV-3DLaneは、新しいエンドツーエンドDual-Viewマルチモーダル3Dレーン検出フレームワークである。
画像とLiDAR点の両方の強度を相乗化する。
最先端のパフォーマンスを実現し、F1スコアが11.2、エラーが53.5%減少している。
- 参考スコア(独自算出の注目度): 40.71071200694655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 3D lane estimation is crucial for ensuring safety in autonomous driving. However, prevailing monocular techniques suffer from depth loss and lighting variations, hampering accurate 3D lane detection. In contrast, LiDAR points offer geometric cues and enable precise localization. In this paper, we present DV-3DLane, a novel end-to-end Dual-View multi-modal 3D Lane detection framework that synergizes the strengths of both images and LiDAR points. We propose to learn multi-modal features in dual-view spaces, i.e., perspective view (PV) and bird's-eye-view (BEV), effectively leveraging the modal-specific information. To achieve this, we introduce three designs: 1) A bidirectional feature fusion strategy that integrates multi-modal features into each view space, exploiting their unique strengths. 2) A unified query generation approach that leverages lane-aware knowledge from both PV and BEV spaces to generate queries. 3) A 3D dual-view deformable attention mechanism, which aggregates discriminative features from both PV and BEV spaces into queries for accurate 3D lane detection. Extensive experiments on the public benchmark, OpenLane, demonstrate the efficacy and efficiency of DV-3DLane. It achieves state-of-the-art performance, with a remarkable 11.2 gain in F1 score and a substantial 53.5% reduction in errors. The code is available at \url{https://github.com/JMoonr/dv-3dlane}.
- Abstract(参考訳): 正確な3Dレーン推定は、自動運転の安全性を確保するために不可欠である。
しかし、一般的な単分子技術は、深さの損失と照明のバリエーションに悩まされ、正確な3次元車線検出を妨げている。
対照的に、LiDARの点は幾何学的手がかりを提供し、正確な局所化を可能にする。
本稿では,DV-3DLaneについて述べる。DV-3DLaneは,画像とLiDAR点の両方の強度を相乗化する,エンドツーエンドのマルチモーダル3Dレーン検出フレームワークである。
両視点空間,すなわち視点ビュー (PV) と鳥眼ビュー (BEV) でマルチモーダルな特徴を学習し,モーダル固有情報を効果的に活用することを提案する。
これを実現するために,我々は3つの設計を紹介した。
1) 各ビュー空間にマルチモーダルな特徴を統合する双方向機能融合戦略は,その特徴的強みを生かした。
2) PVおよびBEV空間からの車線認識知識を活用してクエリを生成する統一クエリ生成手法を提案する。
3) PVおよびBEV空間の識別特徴を正確な3次元車線検出のための問合せに集約する3次元デュアルビューデフォルマブルアテンション機構。
公開ベンチマークの大規模な実験であるOpenLaneは、DV-3DLaneの有効性と効率を実証した。
最先端のパフォーマンスを実現し、F1スコアが11.2、エラーが53.5%減少している。
コードは \url{https://github.com/JMoonr/dv-3dlane} で公開されている。
関連論文リスト
- OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - An Efficient Transformer for Simultaneous Learning of BEV and Lane
Representations in 3D Lane Detection [55.281369497158515]
3次元車線検出のための効率的な変圧器を提案する。
バニラ変圧器と異なり、我々のモデルは車線とBEVの表現を同時に学習するクロスアテンション機構を含んでいる。
本手法は,2次元および3次元の車線特徴を画像ビューとBEVの特徴にそれぞれ適用することにより,2次元および3次元車線予測を実現する。
論文 参考訳(メタデータ) (2023-06-08T04:18:31Z) - ONCE-3DLanes: Building Monocular 3D Lane Detection [41.46466150783367]
OnCE-3DLanesは3次元空間にレーンレイアウトアノテーションを付加した実世界の自律走行データセットである。
点雲と画像ピクセルとの明確な関係を利用して、データセットのアノテーションパイプラインは、高品質な3Dレーンの位置を自動的に生成するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T16:35:25Z) - PersFormer: 3D Lane Detection via Perspective Transformer and the
OpenLane Benchmark [109.03773439461615]
PersFormerは、新しいトランスフォーマーベースの空間特徴変換モジュールを備えた、エンドツーエンドのモノクル3Dレーン検出器である。
高品質なアノテーションとシナリオの多様性を備えたOpenLaneと呼ばれる,最初の大規模な3Dレーンデータセットの1つをリリースしました。
論文 参考訳(メタデータ) (2022-03-21T16:12:53Z) - Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in
Autonomous Driving [74.74519047735916]
自動運転車(AV)における3次元ポーズ推定(HPE)は,多くの要因において他のユースケースと異なる。
他のユースケース(仮想現実、ゲーム、アニメーションなど)のために収集されたデータは、AVアプリケーションには使用できない可能性がある。
本稿では,この問題をAV設定で緩和するための最初のアプローチの1つを提案する。
論文 参考訳(メタデータ) (2021-12-22T18:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。