論文の概要: LFP: Efficient and Accurate End-to-End Lane-Level Planning via Camera-LiDAR Fusion
- arxiv url: http://arxiv.org/abs/2409.14170v1
- Date: Sat, 21 Sep 2024 15:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 23:48:26.107240
- Title: LFP: Efficient and Accurate End-to-End Lane-Level Planning via Camera-LiDAR Fusion
- Title(参考訳): LFP:カメラ-LiDAR融合による高効率かつ高精度レーンレベル計画
- Authors: Guoliang You, Xiaomeng Chu, Yifan Duan, Xingchen Li, Sha Zhang, Jianmin Ji, Yanyong Zhang,
- Abstract要約: マルチモーダルシステムは自律走行の性能を高めるが、各モーダル内での非差別処理による非効率性に直面する。
我々は,重要な情報を保持しながら,LiDAR特徴量の削減を図った駆動関連要素をターゲットとして提案する。
このアプローチは、画像とLiDARブランチ間のレーンレベル相互作用を強化し、それぞれの有利な特徴の抽出と融合を可能にする。
- 参考スコア(独自算出の注目度): 9.506047817541527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal systems enhance performance in autonomous driving but face inefficiencies due to indiscriminate processing within each modality. Additionally, the independent feature learning of each modality lacks interaction, which results in extracted features that do not possess the complementary characteristics. These issue increases the cost of fusing redundant information across modalities. To address these challenges, we propose targeting driving-relevant elements, which reduces the volume of LiDAR features while preserving critical information. This approach enhances lane level interaction between the image and LiDAR branches, allowing for the extraction and fusion of their respective advantageous features. Building upon the camera-only framework PHP, we introduce the Lane-level camera-LiDAR Fusion Planning (LFP) method, which balances efficiency with performance by using lanes as the unit for sensor fusion. Specifically, we design three modules to enhance efficiency and performance. For efficiency, we propose an image-guided coarse lane prior generation module that forecasts the region of interest (ROI) for lanes and assigns a confidence score, guiding LiDAR processing. The LiDAR feature extraction modules leverages lane-aware priors from the image branch to guide sampling for pillar, retaining essential pillars. For performance, the lane-level cross-modal query integration and feature enhancement module uses confidence score from ROI to combine low-confidence image queries with LiDAR queries, extracting complementary depth features. These features enhance the low-confidence image features, compensating for the lack of depth. Experiments on the Carla benchmarks show that our method achieves state-of-the-art performance in both driving score and infraction score, with maximum improvement of 15% and 14% over existing algorithms, respectively, maintaining high frame rate of 19.27 FPS.
- Abstract(参考訳): マルチモーダルシステムは自律走行の性能を向上させるが、各モーダル内での非差別処理による非効率性に直面する。
さらに、各モダリティの独立した特徴学習には相互作用が欠如しており、結果として相補的な特徴を持たない特徴が抽出される。
これらの問題は、モダリティ間で冗長な情報を融合するコストを増大させる。
これらの課題に対処するために、重要な情報を保持しながらLiDAR特徴量の削減を図り、運転関連要素をターゲットにすることを提案する。
このアプローチは、画像とLiDARブランチ間のレーンレベル相互作用を強化し、それぞれの有利な特徴の抽出と融合を可能にする。
カメラ専用フレームワークPHPを基盤として,センサフュージョンの単位としてレーンを用いて効率と性能のバランスをとる,レーンレベルのカメラライダル融合計画法(LFP)を導入する。
具体的には,効率と性能を向上させるために3つのモジュールを設計する。
効率向上のために,車線に対する関心領域(ROI)を予測し,信頼性スコアを割り当て,LiDAR処理を誘導する画像誘導粗い車線先行生成モジュールを提案する。
LiDAR特徴抽出モジュールは、イメージブランチからレーン対応の事前情報を活用し、柱のガイドサンプリングを行い、必須の柱を保持する。
性能面では、レーンレベルのクロスモーダルクエリ統合と機能拡張モジュールはROIからの信頼スコアを使用して、低信頼の画像クエリとLiDARクエリを組み合わせ、補完的な深度特徴を抽出する。
これらの特徴は、深さの欠如を補い、低信頼の画像特徴を高める。
カーラベンチマーク実験により,本手法は駆動スコアと屈折スコアの両方で最先端性能を実現し,既存のアルゴリズムよりも最大15%,14%向上し,フレームレート19.27FPSを維持した。
関連論文リスト
- Kaninfradet3D:A Road-side Camera-LiDAR Fusion 3D Perception Model based on Nonlinear Feature Extraction and Intrinsic Correlation [7.944126168010804]
AI支援運転の開発に伴い、エゴ車両の3D知覚タスクのための多くの手法が登場した。
グローバルな視点と広いセンシング範囲を提供する能力によって、道端の視点は発展する価値がある。
本稿では,特徴抽出と融合モジュールを最適化したKaninfradet3Dを提案する。
論文 参考訳(メタデータ) (2024-10-21T09:28:42Z) - Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - SupFusion: Supervised LiDAR-Camera Fusion for 3D Object Detection [22.683446326326898]
SupFusionはLiDAR-Camera融合のための補助的な機能レベルの監視を提供する。
ディープフュージョンモジュールは、従来のフュージョン法に比べて連続的に優れた性能を得る。
複数のLiDAR-Camera 3D検出器をベースとしたKITTIベンチマークでは,約2%の3D mAP改善が得られた。
論文 参考訳(メタデータ) (2023-09-13T16:52:23Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - A High-Accuracy Unsupervised Person Re-identification Method Using
Auxiliary Information Mined from Datasets [53.047542904329866]
マルチモーダルな特徴学習のためのデータセットから抽出した補助情報を利用する。
本稿では,Restricted Label Smoothing Cross Entropy Loss (RLSCE), Weight Adaptive Triplet Loss (WATL), Dynamic Training Iterations (DTI)の3つの効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-05-06T10:16:18Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。