論文の概要: BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View
Recognition via Perspective Supervision
- arxiv url: http://arxiv.org/abs/2211.10439v1
- Date: Fri, 18 Nov 2022 18:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:17:53.218068
- Title: BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View
Recognition via Perspective Supervision
- Title(参考訳): BEVFormer v2:パースペクティブ・スーパービジョンによる鳥の視点認識へのモダンな画像バックボーンの適応
- Authors: Chenyu Yang, Yuntao Chen, Hao Tian, Chenxin Tao, Xizhou Zhu, Zhaoxiang
Zhang, Gao Huang, Hongyang Li, Yu Qiao, Lewei Lu, Jie Zhou, Jifeng Dai
- Abstract要約: 本稿では、視線を監督する新しい鳥眼ビュー(BEV)検出器について述べる。
提案手法は,従来および現代の画像バックボーンの幅広いスペクトルを用いて検証し,大規模なnuScenesデータセット上で新たなSoTA結果を得る。
- 参考スコア(独自算出の注目度): 101.36648828734646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel bird's-eye-view (BEV) detector with perspective
supervision, which converges faster and better suits modern image backbones.
Existing state-of-the-art BEV detectors are often tied to certain depth
pre-trained backbones like VoVNet, hindering the synergy between booming image
backbones and BEV detectors. To address this limitation, we prioritize easing
the optimization of BEV detectors by introducing perspective space supervision.
To this end, we propose a two-stage BEV detector, where proposals from the
perspective head are fed into the bird's-eye-view head for final predictions.
To evaluate the effectiveness of our model, we conduct extensive ablation
studies focusing on the form of supervision and the generality of the proposed
detector. The proposed method is verified with a wide spectrum of traditional
and modern image backbones and achieves new SoTA results on the large-scale
nuScenes dataset. The code shall be released soon.
- Abstract(参考訳): 本稿では,最新の画像バックボーンに適合し,より高速に収束する視点監視機能を備えた新しいバードズ・アイ・ビュー(bev)検出器を提案する。
既存の最先端のBEV検出器は、VoVNetのような一定の深さでトレーニングされたバックボーンと結び付けられており、画像バックボーンとBEV検出器の相乗効果を妨げる。
この制限に対処するために、視点空間の監督を導入して、BEV検出器の最適化の緩和を優先する。
この目的のために,2段階のBEV検出器を提案する。
本モデルの有効性を評価するため,提案検出器の監督形態と汎用性に着目した広範囲なアブレーション研究を行った。
提案手法は,従来および現代イメージバックボーンの幅広いスペクトルで検証され,大規模nuscenesデータセット上で新たなsoma結果が得られる。
コードはすぐに解放される。
関連論文リスト
- Focus on BEV: Self-calibrated Cycle View Transformation for Monocular Birds-Eye-View Segmentation [4.9185678564997355]
Birds--EyeView (BEV)セグメンテーションは、視点からトップビューへの空間マッピングを確立することを目的としている。
近年の研究では、画像空間におけるBEV非依存的特徴の破壊により、ビュートランスフォーメーションの困難に直面している。
論文 参考訳(メタデータ) (2024-10-21T12:00:52Z) - Robust Bird's Eye View Segmentation by Adapting DINOv2 [3.236198583140341]
低ランク適応(LoRA)を用いた視覚基礎モデルDINOv2をBEV推定に適用する。
我々の実験は、様々な汚職下でのBEV知覚の堅牢性を高めることを示した。
また,適応表現の有効性を,学習可能なパラメータの少ないこと,学習中の収束の高速化の観点から示す。
論文 参考訳(メタデータ) (2024-09-16T12:23:35Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - FB-BEV: BEV Representation from Forward-Backward View Transformations [131.11787050205697]
本稿では,Bird-Eye-View (BEV) 表現のためのビュートランスフォーメーションモジュール (VTM) を提案する。
我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-04T10:26:55Z) - VoxelFormer: Bird's-Eye-View Feature Generation based on Dual-view
Attention for Multi-view 3D Object Detection [47.926010021559314]
変圧器を用いた検出器は2次元視覚知覚タスクにおいて顕著な性能を示した。
しかし、多視点3Dオブジェクト検出におけるそれらの性能は、畳み込みニューラルネットワークに基づく検出器の最先端(SOTA)よりも劣っている。
本稿では,BEVとカメラの両方から注目重みを生成する,新しいBEV特徴生成手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T15:00:36Z) - SkyEye: Self-Supervised Bird's-Eye-View Semantic Mapping Using Monocular
Frontal View Images [26.34702432184092]
本研究では,前景からの単一単眼画像を用いた鳥眼図(BEV)意味マップ作成のための,最初の自己教師型アプローチを提案する。
トレーニングでは、ビデオシーケンスのより容易に利用できるFVセマンティックアノテーションを活用することで、BEVの基底真理アノテーションの必要性を克服する。
提案手法は最先端の完全教師付き手法と同等に動作し,BEVにおける直接監督の1%のみを用いて競争結果を得る。
論文 参考訳(メタデータ) (2023-02-08T18:02:09Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - PersDet: Monocular 3D Detection in Perspective Bird's-Eye-View [26.264139933212892]
Bird's-Eye-View (BEV)は、自律走行とロボット工学のための他の3D検出器よりも優れている。
画像特徴をBEVに変換するには、特別なオペレーターが特徴サンプリングを行う必要がある。
特徴サンプリングを必要としない新しいBEV表現であるBEVの視点で物体を検出することを提案する。
論文 参考訳(メタデータ) (2022-08-19T15:19:20Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。