論文の概要: StereoMV2D: A Sparse Temporal Stereo-Enhanced Framework for Robust Multi-View 3D Object Detection
- arxiv url: http://arxiv.org/abs/2512.17620v1
- Date: Fri, 19 Dec 2025 14:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.428937
- Title: StereoMV2D: A Sparse Temporal Stereo-Enhanced Framework for Robust Multi-View 3D Object Detection
- Title(参考訳): StereoMV2D:ロバストなマルチビュー3Dオブジェクト検出のためのスパーステンポラルステレオ拡張フレームワーク
- Authors: Di Wu, Feng Yang, Wenhui Zhao, Jinwen Yu, Pan Liao, Benlian Xu, Dingwen Zhang,
- Abstract要約: 本稿では2次元検出誘導多視点3D検出器に時間的ステレオモデリングを統合する統合フレームワークであるStereoMV2Dを提案する。
StereoMV2Dは、隣接するフレームにまたがる同じオブジェクトの時間的差異を利用して、深度知覚を強化し、クエリ先行を洗練する。
nuScenesとArgoverse 2データセットの実験により、StereoMV2Dは計算オーバーヘッドを発生させることなく、優れた検出性能を実現することが示された。
- 参考スコア(独自算出の注目度): 31.8104389684728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view 3D object detection is a fundamental task in autonomous driving perception, where achieving a balance between detection accuracy and computational efficiency remains crucial. Sparse query-based 3D detectors efficiently aggregate object-relevant features from multi-view images through a set of learnable queries, offering a concise and end-to-end detection paradigm. Building on this foundation, MV2D leverages 2D detection results to provide high-quality object priors for query initialization, enabling higher precision and recall. However, the inherent depth ambiguity in single-frame 2D detections still limits the accuracy of 3D query generation. To address this issue, we propose StereoMV2D, a unified framework that integrates temporal stereo modeling into the 2D detection-guided multi-view 3D detector. By exploiting cross-temporal disparities of the same object across adjacent frames, StereoMV2D enhances depth perception and refines the query priors, while performing all computations efficiently within 2D regions of interest (RoIs). Furthermore, a dynamic confidence gating mechanism adaptively evaluates the reliability of temporal stereo cues through learning statistical patterns derived from the inter-frame matching matrix together with appearance consistency, ensuring robust detection under object appearance and occlusion. Extensive experiments on the nuScenes and Argoverse 2 datasets demonstrate that StereoMV2D achieves superior detection performance without incurring significant computational overhead. Code will be available at https://github.com/Uddd821/StereoMV2D.
- Abstract(参考訳): マルチビュー3次元物体検出は、検出精度と計算効率のバランスを保ち続ける自律運転知覚の基本的な課題である。
スパースクエリに基づく3D検出器は、学習可能なクエリのセットを通じて、多視点画像からオブジェクト関連機能を効率的に集約し、簡潔でエンドツーエンドな検出パラダイムを提供する。
この基盤の上に構築されたMV2Dは、2D検出結果を活用して、クエリ初期化のための高品質なオブジェクト前処理を提供し、より高い精度とリコールを可能にする。
しかし、単一フレームの2D検出における固有の深さの曖昧さは、3Dクエリ生成の精度を制限している。
本稿では,時間的ステレオモデリングを2次元検出誘導型マルチビュー3D検出器に統合する統合フレームワークであるStereoMV2Dを提案する。
StereoMV2Dは、隣接するフレーム間の同じオブジェクトの時間的差を利用して、深度認識を強化し、クエリ先行を洗練し、すべての計算を2次元の関心領域(RoIs)内で効率的に実行する。
さらに、動的信頼ゲーティング機構は、フレーム間マッチング行列から得られた統計的パターンを外観整合性とともに学習することにより、時間的ステレオキューの信頼性を適応的に評価し、オブジェクトの外観および閉塞下での堅牢な検出を確実にする。
nuScenesとArgoverse 2データセットの大規模な実験により、StereoMV2Dは大きな計算オーバーヘッドを発生させることなく優れた検出性能を達成することが示された。
コードはhttps://github.com/Uddd821/StereoMV2Dで入手できる。
関連論文リスト
- UltimateDO: An Efficient Framework to Marry Occupancy Prediction with 3D Object Detection via Channel2height [2.975860548186652]
現代の自律運転システムでは、作業と3Dオブジェクト検出が標準的な2つのタスクである。
高速な3次元物体検出と占有予測(UltimateDO)を実現する手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T13:14:13Z) - Multi-View Attentive Contextualization for Multi-View 3D Object Detection [19.874148893464607]
MvACon(Multi-View Attentive Contextualization)は,クエリベース3D(MV3D)オブジェクト検出における2D-to-3D機能向上のための,シンプルかつ効果的な手法である。
実験では、提案されたMvAConは、BEVFormerと最近の3Dデフォルマブルアテンション(DFA3D)とPETRの両方を用いて、nuScenesベンチマークで徹底的にテストされている。
論文 参考訳(メタデータ) (2024-05-20T17:37:10Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Transformer-based stereo-aware 3D object detection from binocular images [82.85433941479216]
両眼3次元物体検出におけるトランスフォーマーのモデル設計について検討する。
この目的を達成するために、ステレオ対応の3Dオブジェクト検出器TS3Dを提案する。
提案したTS3Dは、KITTIテストセット上で41.29%のモードレートカー検出精度を実現し、各両眼画像対から物体を検出するのに88msを要した。
論文 参考訳(メタデータ) (2023-04-24T08:29:45Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。