論文の概要: Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe
- arxiv url: http://arxiv.org/abs/2209.05324v1
- Date: Mon, 12 Sep 2022 15:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:50:52.234464
- Title: Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe
- Title(参考訳): 鳥の目視知覚の悪魔に夢中になる: レビュー, 評価と準備
- Authors: Hongyang Li, Chonghao Sima, Jifeng Dai, Wenhai Wang, Lewei Lu, Huijie
Wang, Enze Xie, Zhiqi Li, Hanming Deng, Hao Tian, Xizhou Zhu, Li Chen, Yulu
Gao, Xiangwei Geng, Jia Zeng, Yang Li, Jiazhi Yang, Xiaosong Jia, Bohan Yu,
Yu Qiao, Dahua Lin, Si Liu, Junchi Yan, Jianping Shi and Ping Luo
- Abstract要約: 鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
本稿では,BEVの認知に関する最近の研究を概観し,様々なソリューションの詳細な分析を行う。
我々は、カメラ、LiDAR、融合入力を含むBEV知覚タスクの性能を向上させるための実用的なガイドブックの完全なセットを紹介する。
- 参考スコア(独自算出の注目度): 153.47511464278233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning powerful representations in bird's-eye-view (BEV) for perception
tasks is trending and drawing extensive attention both from industry and
academia. Conventional approaches for most autonomous driving algorithms
perform detection, segmentation, tracking, etc., in a front or perspective
view. As sensor configurations get more complex, integrating multi-source
information from different sensors and representing features in a unified view
come of vital importance. BEV perception inherits several advantages, as
representing surrounding scenes in BEV is intuitive and fusion-friendly; and
representing objects in BEV is most desirable for subsequent modules as in
planning and/or control. The core problems for BEV perception lie in (a) how to
reconstruct the lost 3D information via view transformation from perspective
view to BEV; (b) how to acquire ground truth annotations in BEV grid; (c) how
to formulate the pipeline to incorporate features from different sources and
views; and (d) how to adapt and generalize algorithms as sensor configurations
vary across different scenarios. In this survey, we review the most recent work
on BEV perception and provide an in-depth analysis of different solutions.
Moreover, several systematic designs of BEV approach from the industry are
depicted as well. Furthermore, we introduce a full suite of practical guidebook
to improve the performance of BEV perception tasks, including camera, LiDAR and
fusion inputs. At last, we point out the future research directions in this
area. We hope this report would shed some light on the community and encourage
more research effort on BEV perception. We keep an active repository to collect
the most recent work and provide a toolbox for bag of tricks at
https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe.
- Abstract(参考訳): 鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
ほとんどの自律運転アルゴリズムに対する従来のアプローチは、フロントまたはビュービューで検出、セグメンテーション、トラッキングなどを行う。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEVの周囲のシーンは直感的で融合しやすいため、BEVの知覚はいくつかの利点を継承している。
BEVの知覚における中核的な問題は
(a)ビュービューからBEVへのビュートランスフォーメーションによる失われた3D情報の再構築方法
b) bevグリッドにおける根拠真理アノテーションの取得方法
(c)異なるソースやビューの機能を組み込むためのパイプラインの定式化方法、及び
(d) センサ構成によるアルゴリズムの適応と一般化の方法は、様々なシナリオで異なる。
本稿では,BEVの認知に関する最近の研究を概観し,様々なソリューションの詳細な分析を行う。
さらに、業界からのBEVアプローチの体系的な設計もいくつか紹介されている。
さらに,カメラ,LiDAR,融合入力など,BEV知覚タスクの性能向上のための実用的なガイドブックも紹介した。
最後に,この領域における今後の研究の方向性を指摘する。
このレポートがコミュニティに光を当て、BEVの認識に関するさらなる研究を奨励することを期待しています。
最新の作業を収集するためにアクティブリポジトリを保持し、https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipeでトリックの袋を提供する。
関連論文リスト
- BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment [8.098296280937518]
本稿では,カメラとライダーデータからBEV表現を統合するフレームワークであるBEVPoseについて,センサポーズを誘導監視信号として用いた。
ポーズ情報を活用することで,環境の幾何学的側面と意味的側面の両方を捉えた潜在的BEV埋め込みの学習を容易にし,マルチモーダルな感覚入力を調整・融合する。
論文 参考訳(メタデータ) (2024-10-28T12:40:27Z) - OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - SA-BEV: Generating Semantic-Aware Bird's-Eye-View Feature for Multi-view
3D Object Detection [46.92706423094971]
画像特徴のセマンティックセグメンテーションに応じて背景情報をフィルタリングするセマンティック・アウェア・BEVプール(SA-BEVPool)を提案する。
また、セマンティック・アウェアのBEV機能と密接にマッチする効果的なデータ拡張戦略であるBEV-Pasteを提案する。
nuScenesの実験では、SA-BEVが最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2023-07-21T10:28:19Z) - Leveraging BEV Representation for 360-degree Visual Place Recognition [14.497501941931759]
本稿では,360度視覚位置認識(VPR)におけるBird's Eye View表現の利点について検討する。
本稿では,特徴抽出,特徴集約,視覚-LiDAR融合におけるBEV表現を利用した新しいネットワークアーキテクチャを提案する。
提案手法は,2つのデータセットのアブレーションおよび比較研究において評価される。
論文 参考訳(メタデータ) (2023-05-23T08:29:42Z) - BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks [28.024042528077125]
Bird's-Eye-View (BEV) 3D Object Detectionは自律運転システムにとって重要なマルチビュー技術である。
本研究では,BEVスライス注意ネットワーク (BEV-SAN) という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-02T15:14:48Z) - BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View
Recognition via Perspective Supervision [101.36648828734646]
本稿では、視線を監督する新しい鳥眼ビュー(BEV)検出器について述べる。
提案手法は,従来および現代の画像バックボーンの幅広いスペクトルを用いて検証し,大規模なnuScenesデータセット上で新たなSoTA結果を得る。
論文 参考訳(メタデータ) (2022-11-18T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。