論文の概要: Multi-View Fusion of Sensor Data for Improved Perception and Prediction
in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2008.11901v2
- Date: Tue, 19 Oct 2021 00:36:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 07:16:41.258758
- Title: Multi-View Fusion of Sensor Data for Improved Perception and Prediction
in Autonomous Driving
- Title(参考訳): 自律運転における知覚・予測向上のためのセンサデータの多視点融合
- Authors: Sudeep Fadadu, Shreyash Pandey, Darshan Hegde, Yi Shi, Fang-Chieh
Chou, Nemanja Djuric, Carlos Vallespi-Gonzalez
- Abstract要約: 本稿では,LiDARとカメラ画像の多視点表現を用いた物体検出と軌跡予測のエンドツーエンド手法を提案する。
我々のモデルは最先端のBird's-Eye View(BEV)ネットワーク上に構築され、歴史的なLiDARデータからボキセル化された特徴を融合する。
我々は、このモデルを、ネイティブな非量子化表現で生のLiDAR情報を使用する追加のLiDAR Range-View (RV)機能で拡張する。
- 参考スコア(独自算出の注目度): 11.312620949473938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an end-to-end method for object detection and trajectory
prediction utilizing multi-view representations of LiDAR returns and camera
images. In this work, we recognize the strengths and weaknesses of different
view representations, and we propose an efficient and generic fusing method
that aggregates benefits from all views. Our model builds on a state-of-the-art
Bird's-Eye View (BEV) network that fuses voxelized features from a sequence of
historical LiDAR data as well as rasterized high-definition map to perform
detection and prediction tasks. We extend this model with additional LiDAR
Range-View (RV) features that use the raw LiDAR information in its native,
non-quantized representation. The RV feature map is projected into BEV and
fused with the BEV features computed from LiDAR and high-definition map. The
fused features are then further processed to output the final detections and
trajectories, within a single end-to-end trainable network. In addition, the RV
fusion of LiDAR and camera is performed in a straightforward and
computationally efficient manner using this framework. The proposed multi-view
fusion approach improves the state-of-the-art on proprietary large-scale
real-world data collected by a fleet of self-driving vehicles, as well as on
the public nuScenes data set with minimal increases on the computational cost.
- Abstract(参考訳): 本稿では,LiDARリターンとカメラ画像の多視点表現を用いた物体検出と軌跡予測のエンドツーエンド手法を提案する。
本研究では,異なるビュー表現の長所と短所を認識し,すべてのビューの長所を集約する効率的で汎用的なfusing手法を提案する。
我々のモデルは最先端のBird's-Eye View (BEV) ネットワーク上に構築されており、歴史的LiDARデータ列とラスタ化高精細地図を融合して、検出および予測タスクを実行する。
我々は、このモデルを、ネイティブな非量子化表現で生のLiDAR情報を使用する追加のLiDAR Range-View (RV)機能で拡張する。
RV機能マップはBEVに投影され、LiDARと高精細マップから計算されたBEV機能と融合する。
融合された機能はさらに処理され、エンドツーエンドのトレーニング可能なネットワーク内で最終検出とトラジェクタを出力する。
また、このフレームワークを用いて、LIDARとカメラのRV融合を簡便かつ計算的に行う。
提案されたマルチビュー融合アプローチは、自動運転車の群れが収集したプロプライエタリな大規模実世界データと、計算コストを最小に増やすパブリックヌッセンスデータセットの最先端の技術を改善している。
関連論文リスト
- OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - CVTNet: A Cross-View Transformer Network for Place Recognition Using
LiDAR Data [15.144590078316252]
本稿では,LIDARデータから発生する範囲画像ビュー(RIV)と鳥眼ビュー(BEV)を融合させる,BITNetと呼ばれるクロスビュートランスフォーマーベースのネットワークを提案する。
センサの設定や環境条件の異なる3つのデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-02-03T11:37:20Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Mapping LiDAR and Camera Measurements in a Dual Top-View Grid
Representation Tailored for Automated Vehicles [3.337790639927531]
本稿では,LiDARやカメラなどの画像センサのための汎用的な網網マッピングパイプラインを提案する。
グリッドに基づく明らかなモデルでは,セル占有率と接地率を別々に推定する。
本手法は,セル占有率を高精細度かつ高精細度に評価し,効率を最大化し,外部処理モジュールへの依存性を最小限に抑える。
論文 参考訳(メタデータ) (2022-04-16T23:51:20Z) - MVFuseNet: Improving End-to-End Object Detection and Motion Forecasting
through Multi-View Fusion of LiDAR Data [4.8061970432391785]
We propose itMVFusenet, a novel end-to-end method for joint object detection motion forecasting from a temporal sequence of LiDAR data。
2つの大規模自動運転データセットの検出と動作予測のタスクに対する当社のマルチビューアプローチの利点を示します。
論文 参考訳(メタデータ) (2021-04-21T21:29:08Z) - RV-FuseNet: Range View Based Fusion of Time-Series LiDAR Data for Joint
3D Object Detection and Motion Forecasting [13.544498422625448]
本稿では,共同検出と軌道推定のための新しいエンドツーエンドアプローチであるRV-FuseNetを提案する。
広範に使用されている鳥眼ビュー(BEV)表現の代わりに,LiDARデータのネイティブレンジビュー(RV)表現を利用する。
提案手法は,既存の最先端技術よりも動作予測性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2020-05-21T19:22:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。