論文の概要: BEVStereo++: Accurate Depth Estimation in Multi-view 3D Object Detection
via Dynamic Temporal Stereo
- arxiv url: http://arxiv.org/abs/2304.04185v1
- Date: Sun, 9 Apr 2023 08:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 17:09:12.788128
- Title: BEVStereo++: Accurate Depth Estimation in Multi-view 3D Object Detection
via Dynamic Temporal Stereo
- Title(参考訳): BEVStereo++:動的時間ステレオによる多視点3次元物体検出における正確な深さ推定
- Authors: Yinhao Li, Jinrong Yang, Jianjian Sun, Han Bao, Zheng Ge, Li Xiao
- Abstract要約: 時間的多視点ステレオ(MVS)技術は、この曖昧さに対処するための自然な知識である。
動的時間的ステレオ戦略を導入することで、BEVStereo++は、時間的ステレオを導入することによってもたらされる害を削減できる。
BEVStereo++は、データセットとnuSceneの両方で最先端(SOTA)を実現する。
- 参考スコア(独自算出の注目度): 6.5401888641091634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bounded by the inherent ambiguity of depth perception, contemporary
multi-view 3D object detection methods fall into the performance bottleneck.
Intuitively, leveraging temporal multi-view stereo (MVS) technology is the
natural knowledge for tackling this ambiguity. However, traditional attempts of
MVS has two limitations when applying to 3D object detection scenes: 1) The
affinity measurement among all views suffers expensive computational cost; 2)
It is difficult to deal with outdoor scenarios where objects are often mobile.
To this end, we propose BEVStereo++: by introducing a dynamic temporal stereo
strategy, BEVStereo++ is able to cut down the harm that is brought by
introducing temporal stereo when dealing with those two scenarios. Going one
step further, we apply Motion Compensation Module and long sequence Frame
Fusion to BEVStereo++, which shows further performance boosting and error
reduction. Without bells and whistles, BEVStereo++ achieves
state-of-the-art(SOTA) on both Waymo and nuScenes dataset.
- Abstract(参考訳): 深度知覚の本来の曖昧さにより、現代の多視点3Dオブジェクト検出法は性能ボトルネックに陥る。
直感的には、時間的多視点ステレオ(MVS)技術を活用することが、この曖昧さに対処するための自然な知識である。
しかし、3Dオブジェクト検出シーンに適用する場合、従来のMVSの試みには2つの制限がある。
1)すべての視点における親和性の測定は,計算コストがかかる。
2) オブジェクトがしばしば移動している屋外シナリオに対処することは困難である。
この目的のために, BEVStereo++を提案する: 動的時間的ステレオ戦略を導入することにより, BEVStereo++は2つのシナリオを扱う際に, 時間的ステレオを導入することによって生じる害を減らすことができる。
さらにさらに、BeVStereo++にMotion Compensation ModuleとLong Sequence Frame Fusionを適用し、さらなるパフォーマンス向上とエラー削減を示す。
ベルとホイッスルなしで、BEVStereo++はWaymoとnuScenesデータセットの両方で最先端(SOTA)を達成する。
関連論文リスト
- Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z) - DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking [67.34803048690428]
本稿では、この問題を解決するためにRecurrenT(DORT)の動的オブジェクトをモデル化することを提案する。
DORTは、重い計算負担を軽減する動き推定のために、オブジェクトワイズローカルボリュームを抽出する。
フレキシブルで実用的で、ほとんどのカメラベースの3Dオブジェクト検出器に差し込むことができる。
論文 参考訳(メタデータ) (2023-03-29T12:33:55Z) - BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection
with Dynamic Temporal Stereo [15.479670314689418]
本稿では,マッチング候補のスケールを動的に選択するための効果的な時間ステレオ手法を提案する。
我々は、より価値のある候補を更新するための反復アルゴリズムを設計し、移動可能な候補に適応する。
BEVStereoは、nuScenesデータセットのカメラのみのトラックで、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-09-21T10:21:25Z) - ORA3D: Overlap Region Aware Multi-view 3D Object Detection [11.58746596768273]
現在の多視点3Dオブジェクト検出法は、しばしば重なり合う領域のオブジェクトを適切に検出できない。
本稿では,(1)弱深度スーパービジョンのステレオ異方性推定と(2)適応オーバーラップ領域判別器の2つの主要なモジュールを提案する。
提案手法は,現在の最先端モデル,すなわちDETR3DとBEVDetより優れている。
論文 参考訳(メタデータ) (2022-07-02T15:28:44Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Multi-view Monocular Depth and Uncertainty Prediction with Deep SfM in
Dynamic Environments [0.2426580753117204]
動的環境下でのモノクロ映像からの深度と動きの3次元再構成は, 極めて不良な問題である。
このような環境における現状のマルチビューシステム(SotA)の性能について検討する。
論文 参考訳(メタデータ) (2022-01-21T10:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。