論文の概要: Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe
- arxiv url: http://arxiv.org/abs/2209.05324v1
- Date: Mon, 12 Sep 2022 15:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:50:52.234464
- Title: Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe
- Title(参考訳): 鳥の目視知覚の悪魔に夢中になる: レビュー, 評価と準備
- Authors: Hongyang Li, Chonghao Sima, Jifeng Dai, Wenhai Wang, Lewei Lu, Huijie
Wang, Enze Xie, Zhiqi Li, Hanming Deng, Hao Tian, Xizhou Zhu, Li Chen, Yulu
Gao, Xiangwei Geng, Jia Zeng, Yang Li, Jiazhi Yang, Xiaosong Jia, Bohan Yu,
Yu Qiao, Dahua Lin, Si Liu, Junchi Yan, Jianping Shi and Ping Luo
- Abstract要約: 鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
本稿では,BEVの認知に関する最近の研究を概観し,様々なソリューションの詳細な分析を行う。
我々は、カメラ、LiDAR、融合入力を含むBEV知覚タスクの性能を向上させるための実用的なガイドブックの完全なセットを紹介する。
- 参考スコア(独自算出の注目度): 153.47511464278233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning powerful representations in bird's-eye-view (BEV) for perception
tasks is trending and drawing extensive attention both from industry and
academia. Conventional approaches for most autonomous driving algorithms
perform detection, segmentation, tracking, etc., in a front or perspective
view. As sensor configurations get more complex, integrating multi-source
information from different sensors and representing features in a unified view
come of vital importance. BEV perception inherits several advantages, as
representing surrounding scenes in BEV is intuitive and fusion-friendly; and
representing objects in BEV is most desirable for subsequent modules as in
planning and/or control. The core problems for BEV perception lie in (a) how to
reconstruct the lost 3D information via view transformation from perspective
view to BEV; (b) how to acquire ground truth annotations in BEV grid; (c) how
to formulate the pipeline to incorporate features from different sources and
views; and (d) how to adapt and generalize algorithms as sensor configurations
vary across different scenarios. In this survey, we review the most recent work
on BEV perception and provide an in-depth analysis of different solutions.
Moreover, several systematic designs of BEV approach from the industry are
depicted as well. Furthermore, we introduce a full suite of practical guidebook
to improve the performance of BEV perception tasks, including camera, LiDAR and
fusion inputs. At last, we point out the future research directions in this
area. We hope this report would shed some light on the community and encourage
more research effort on BEV perception. We keep an active repository to collect
the most recent work and provide a toolbox for bag of tricks at
https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe.
- Abstract(参考訳): 鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
ほとんどの自律運転アルゴリズムに対する従来のアプローチは、フロントまたはビュービューで検出、セグメンテーション、トラッキングなどを行う。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEVの周囲のシーンは直感的で融合しやすいため、BEVの知覚はいくつかの利点を継承している。
BEVの知覚における中核的な問題は
(a)ビュービューからBEVへのビュートランスフォーメーションによる失われた3D情報の再構築方法
b) bevグリッドにおける根拠真理アノテーションの取得方法
(c)異なるソースやビューの機能を組み込むためのパイプラインの定式化方法、及び
(d) センサ構成によるアルゴリズムの適応と一般化の方法は、様々なシナリオで異なる。
本稿では,BEVの認知に関する最近の研究を概観し,様々なソリューションの詳細な分析を行う。
さらに、業界からのBEVアプローチの体系的な設計もいくつか紹介されている。
さらに,カメラ,LiDAR,融合入力など,BEV知覚タスクの性能向上のための実用的なガイドブックも紹介した。
最後に,この領域における今後の研究の方向性を指摘する。
このレポートがコミュニティに光を当て、BEVの認識に関するさらなる研究を奨励することを期待しています。
最新の作業を収集するためにアクティブリポジトリを保持し、https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipeでトリックの袋を提供する。
関連論文リスト
- RoboBEV: Towards Robust Bird's Eye View Perception under Corruptions [34.111443808494506]
我々は、Bright、Dark、Fog、Snow、Motion Blur、Color Quant、Camera Crash、Frame Lostを含む8つの異なる汚職を含む総合的なベンチマークスイートであるRoboBEVを紹介した。
これに基づいて、我々は幅広いBEVベースのモデルに対して広範囲な評価を行い、そのレジリエンスと信頼性を理解します。
我々の発見は、現実の展開において正確性と堅牢性を両立できる将来のBEVモデルを設計するための貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-04-13T17:59:46Z) - FedBEVT: Federated Learning Bird's Eye View Perception Transformer in
Road Traffic Systems [12.713320869306404]
本稿では,BEV知覚のためのフェデレートトランスフォーマー学習手法であるFedBEVTを提案する。
我々はFedBEVTにおける2つの一般的なデータ問題に対処する。
以上の結果から,FedBEVTは4症例すべてでベースラインアプローチに優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-04-04T05:14:25Z) - VoxelFormer: Bird's-Eye-View Feature Generation based on Dual-view
Attention for Multi-view 3D Object Detection [47.926010021559314]
変圧器を用いた検出器は2次元視覚知覚タスクにおいて顕著な性能を示した。
しかし、多視点3Dオブジェクト検出におけるそれらの性能は、畳み込みニューラルネットワークに基づく検出器の最先端(SOTA)よりも劣っている。
本稿では,BEVとカメラの両方から注目重みを生成する,新しいBEV特徴生成手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T15:00:36Z) - BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks [28.024042528077125]
Bird's-Eye-View (BEV) 3D Object Detectionは自律運転システムにとって重要なマルチビュー技術である。
本研究では,BEVスライス注意ネットワーク (BEV-SAN) という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-02T15:14:48Z) - Deep Learning-Driven Edge Video Analytics: A Survey [3.8190210368395374]
ビデオ分析(VA)は、デジタル情報のグローバルな爆発における重要な要因である。
インターネットに接続されたデバイスの普及に伴い、大量のデータが毎日生成され、クラウドを圧倒する。
ワークロードとサービスをネットワークコアからネットワークエッジに移行する、新たなパラダイムであるエッジコンピューティングは、有望なソリューションとして広く認識されている。
この調査は、読者がVAとエッジコンピューティングの関係を理解するのに役立つ。
論文 参考訳(メタデータ) (2022-11-28T20:11:37Z) - BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View
Recognition via Perspective Supervision [101.36648828734646]
本稿では、視線を監督する新しい鳥眼ビュー(BEV)検出器について述べる。
提案手法は,従来および現代の画像バックボーンの幅広いスペクトルを用いて検証し,大規模なnuScenesデータセット上で新たなSoTA結果を得る。
論文 参考訳(メタデータ) (2022-11-18T18:59:48Z) - Vision-Centric BEV Perception: A Survey [92.98068828762833]
視覚中心のBEV知覚は、最近、産業と学界の両方から注目を集めている。
ディープラーニングの急速な発展に伴い、視覚中心のBEV知覚に対処する多くの手法が提案されている。
本稿では,近年の視覚中心型BEV知覚の進歩とその拡張に関する包括的調査を示す。
論文 参考訳(メタデータ) (2022-08-04T17:53:17Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera
Images via Spatiotemporal Transformers [39.253627257740085]
マルチカメラ画像に基づく3次元検出やマップセグメンテーションを含む3次元視覚認識タスクは、自律運転システムに不可欠である。
本稿では,複数の自律運転認識タスクをサポートするために,変圧器を用いた統合BEV表現を学習するBEVFormerという新しいフレームワークを提案する。
BEVFormerは低視認性条件下での物体の速度推定とリコールの精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-03-31T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。