論文の概要: BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection
with Dynamic Temporal Stereo
- arxiv url: http://arxiv.org/abs/2209.10248v1
- Date: Wed, 21 Sep 2022 10:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:25:19.655854
- Title: BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection
with Dynamic Temporal Stereo
- Title(参考訳): BEVStereo:動的時間ステレオを用いた多視点3次元物体検出における深さ推定の強化
- Authors: Yinhao Li, Han Bao, Zheng Ge, Jinrong Yang, Jianjian Sun, Zeming Li
- Abstract要約: 本稿では,マッチング候補のスケールを動的に選択するための効果的な時間ステレオ手法を提案する。
我々は、より価値のある候補を更新するための反復アルゴリズムを設計し、移動可能な候補に適応する。
BEVStereoは、nuScenesデータセットのカメラのみのトラックで、最先端のパフォーマンスを新たに達成する。
- 参考スコア(独自算出の注目度): 15.479670314689418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bounded by the inherent ambiguity of depth perception, contemporary
camera-based 3D object detection methods fall into the performance bottleneck.
Intuitively, leveraging temporal multi-view stereo (MVS) technology is the
natural knowledge for tackling this ambiguity. However, traditional attempts of
MVS are flawed in two aspects when applying to 3D object detection scenes: 1)
The affinity measurement among all views suffers expensive computation cost; 2)
It is difficult to deal with outdoor scenarios where objects are often mobile.
To this end, we introduce an effective temporal stereo method to dynamically
select the scale of matching candidates, enable to significantly reduce
computation overhead. Going one step further, we design an iterative algorithm
to update more valuable candidates, making it adaptive to moving candidates. We
instantiate our proposed method to multi-view 3D detector, namely BEVStereo.
BEVStereo achieves the new state-of-the-art performance (i.e., 52.5% mAP and
61.0% NDS) on the camera-only track of nuScenes dataset. Meanwhile, extensive
experiments reflect our method can deal with complex outdoor scenarios better
than contemporary MVS approaches. Codes have been released at
https://github.com/Megvii-BaseDetection/BEVStereo.
- Abstract(参考訳): 深度知覚の本来の曖昧さによって、現代のカメラベースの3Dオブジェクト検出法は性能ボトルネックに陥る。
直感的には、時間的多視点ステレオ(MVS)技術を活用することが、この曖昧さに対処するための自然な知識である。
しかし、従来のMVSの試みは、3Dオブジェクト検出シーンに適用する場合の2つの側面に欠陥がある。
1)すべての視点における親和性の測定は,計算コストがかかる。
2) オブジェクトがしばしば移動している屋外シナリオに対処することは困難である。
そこで本稿では,マッチング候補のスケールを動的に選択し,計算オーバーヘッドを大幅に削減する有効な時間ステレオ手法を提案する。
さらに一歩進めると、我々はより価値のある候補を更新するための反復アルゴリズムを設計し、移動可能な候補に適応する。
提案手法を多視点3D検出器(BEVStereo)にインスタンス化する。
BEVStereoは、nuScenesデータセットのカメラのみのトラック上で、新しい最先端のパフォーマンス(52.5% mAPと61.0% NDS)を達成する。
一方,本手法を反映する広範な実験は,現代のmvs手法よりも複雑な屋外シナリオに対処できる。
コードはhttps://github.com/Megvii-BaseDetection/BEVStereoでリリースされた。
関連論文リスト
- Multi-View Attentive Contextualization for Multi-View 3D Object Detection [19.874148893464607]
MvACon(Multi-View Attentive Contextualization)は,クエリベース3D(MV3D)オブジェクト検出における2D-to-3D機能向上のための,シンプルかつ効果的な手法である。
実験では、提案されたMvAConは、BEVFormerと最近の3Dデフォルマブルアテンション(DFA3D)とPETRの両方を用いて、nuScenesベンチマークで徹底的にテストされている。
論文 参考訳(メタデータ) (2024-05-20T17:37:10Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - BEVStereo++: Accurate Depth Estimation in Multi-view 3D Object Detection
via Dynamic Temporal Stereo [6.5401888641091634]
時間的多視点ステレオ(MVS)技術は、この曖昧さに対処するための自然な知識である。
動的時間的ステレオ戦略を導入することで、BEVStereo++は、時間的ステレオを導入することによってもたらされる害を削減できる。
BEVStereo++は、データセットとnuSceneの両方で最先端(SOTA)を実現する。
論文 参考訳(メタデータ) (2023-04-09T08:04:26Z) - DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking [67.34803048690428]
本稿では、この問題を解決するためにRecurrenT(DORT)の動的オブジェクトをモデル化することを提案する。
DORTは、重い計算負担を軽減する動き推定のために、オブジェクトワイズローカルボリュームを抽出する。
フレキシブルで実用的で、ほとんどのカメラベースの3Dオブジェクト検出器に差し込むことができる。
論文 参考訳(メタデータ) (2023-03-29T12:33:55Z) - 3D Video Object Detection with Learnable Object-Centric Global
Optimization [65.68977894460222]
対応性に基づく最適化は3次元シーン再構成の基盤となるが、3次元ビデオオブジェクト検出では研究されていない。
オブジェクト中心の時間対応学習と特徴量付きオブジェクトバンドル調整を備えた、エンドツーエンドで最適化可能なオブジェクト検出器であるBA-Detを提案する。
論文 参考訳(メタデータ) (2023-03-27T17:39:39Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。