論文の概要: A Simple Baseline for BEV Perception Without LiDAR
- arxiv url: http://arxiv.org/abs/2206.07959v1
- Date: Thu, 16 Jun 2022 06:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 16:01:05.266887
- Title: A Simple Baseline for BEV Perception Without LiDAR
- Title(参考訳): LiDARのないBEV知覚のための簡易ベースライン
- Authors: Adam W. Harley and Zhaoyuan Fang and Jie Li and Rares Ambrus and
Katerina Fragkiadaki
- Abstract要約: LiDARに依存しない自動運転車のための3D認識システムの構築は、重要な研究課題である。
現在の方法では、車両の周囲のカメラから収集された多視点RGBデータを使用する。
本稿では,単純なベースラインモデルを提案する。このモデルでは,投影されたすべての画像位置から,単に「リフト」ステップで特徴を推定する。
- 参考スコア(独自算出の注目度): 37.00868568802673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building 3D perception systems for autonomous vehicles that do not rely on
LiDAR is a critical research problem because of the high expense of LiDAR
systems compared to cameras and other sensors. Current methods use multi-view
RGB data collected from cameras around the vehicle and neurally "lift" features
from the perspective images to the 2D ground plane, yielding a "bird's eye
view" (BEV) feature representation of the 3D space around the vehicle. Recent
research focuses on the way the features are lifted from images to the BEV
plane. We instead propose a simple baseline model, where the "lifting" step
simply averages features from all projected image locations, and find that it
outperforms the current state-of-the-art in BEV vehicle segmentation. Our
ablations show that batch size, data augmentation, and input resolution play a
large part in performance. Additionally, we reconsider the utility of radar
input, which has previously been either ignored or found non-helpful by recent
works. With a simple RGB-radar fusion module, we obtain a sizable boost in
performance, approaching the accuracy of a LiDAR-enabled system.
- Abstract(参考訳): LiDARシステムに頼らない自動運転車の3D認識システムの構築は、カメラや他のセンサーと比較してLiDARシステムのコストが高いため、重要な研究課題である。
現在の方法では、車両の周囲のカメラから収集された多視点RGBデータと、視線画像から2D地上面へのニューラルな「リフト」特徴を使い、車両周辺の3D空間の「鳥の目視」(BEV)特徴表現が得られる。
最近の研究は、画像からBEV平面へ機能を持ち上げる方法に焦点を当てている。
その代わりに、単純なベースラインモデルを提案し、"リフト"ステップは単純に全ての投影された画像位置から特徴を平均し、BEV車両セグメンテーションにおける現在の最先端技術よりも優れていることを確かめる。
私たちの短縮は、バッチサイズ、データ拡張、入力解像度がパフォーマンスに大きな役割を果たしていることを示している。
また,これまで無視されたか,あるいは近年の研究で役に立たなかったレーダー入力の有用性を再考する。
単純なRGB-レーダー融合モジュールを用いて,LiDAR対応システムの精度にアプローチして,大幅な性能向上を実現する。
関連論文リスト
- Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z) - RC-BEVFusion: A Plug-In Module for Radar-Camera Bird's Eye View Feature
Fusion [11.646949644683755]
本稿では,BEV平面上のモジュラーレーダカメラ融合ネットワークであるRC-BEVFusionを紹介する。
nuScenes検出スコアは最大28%向上した。
論文 参考訳(メタデータ) (2023-05-25T09:26:04Z) - LiDAR2Map: In Defense of LiDAR-Based Semantic Map Construction Using
Online Camera Distillation [21.53150795218778]
鳥眼ビュー(BEV)の下でのセマンティックマップの構築は、自律運転において重要な役割を担っている。
本稿では,LiDARを用いたセマンティックマップ構築手法を提案する。
セマンティックマップ構築のための堅牢なマルチスケールBEV特徴を学習するBEV機能ピラミッドデコーダを導入する。
論文 参考訳(メタデータ) (2023-04-22T12:05:29Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera
Images via Spatiotemporal Transformers [39.253627257740085]
マルチカメラ画像に基づく3次元検出やマップセグメンテーションを含む3次元視覚認識タスクは、自律運転システムに不可欠である。
本稿では,複数の自律運転認識タスクをサポートするために,変圧器を用いた統合BEV表現を学習するBEVFormerという新しいフレームワークを提案する。
BEVFormerは低視認性条件下での物体の速度推定とリコールの精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-03-31T17:59:01Z) - Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in
Autonomous Driving [74.74519047735916]
自動運転車(AV)における3次元ポーズ推定(HPE)は,多くの要因において他のユースケースと異なる。
他のユースケース(仮想現実、ゲーム、アニメーションなど)のために収集されたデータは、AVアプリケーションには使用できない可能性がある。
本稿では,この問題をAV設定で緩和するための最初のアプローチの1つを提案する。
論文 参考訳(メタデータ) (2021-12-22T18:57:16Z) - Recovering and Simulating Pedestrians in the Wild [81.38135735146015]
本研究では,自動車の走行によって野生で捕獲されたセンサから歩行者の形状と動きを復元することを提案する。
再建された歩行者資産銀行をリアルな3Dシミュレーションシステムに組み込む。
シミュレーションしたLiDARデータを用いて,視覚知覚タスクに必要な実世界のデータ量を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2020-11-16T17:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。