論文の概要: SimPB++: Simultaneously Detecting 2D and 3D Objects from Multiple Cameras
- arxiv url: http://arxiv.org/abs/2605.01924v1
- Date: Sun, 03 May 2026 15:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.996682
- Title: SimPB++: Simultaneously Detecting 2D and 3D Objects from Multiple Cameras
- Title(参考訳): SimPB++: 複数のカメラから2Dと3Dオブジェクトを同時に検出する
- Authors: Yingqi Tang, Zhaotie Meng, Erkang Cheng, Haibin Ling,
- Abstract要約: 複数のカメラから2Dオブジェクトと3Dオブジェクトを同時に検出するSimPB++を提案する。
両方のタスクをハイブリッドデコーダアーキテクチャでエンドツーエンドモデルに統合し、マルチビュー2Dと3Dデコーダを対話的に結合する。
実験では、タスクとArgoverse2の強い長距離検出(最大150m)の両方でnuScenesの最先端性能が示されている。
- 参考スコア(独自算出の注目度): 45.11375888769007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous perception of 2D objects in perspective view and 3D objects in Bird's Eye View (BEV) is challenging for multi-camera autonomous driving. Existing two-stage pipelines use 2D results only as a one-time cue for 3D detection. We propose SimPB++, which simultaneously detects 2D objects in perspective and 3D objects in BEV from multiple cameras. It unifies both tasks into an end-to-end model with a hybrid decoder architecture, coupling multi-view 2D and 3D decoders interactively. Two novel modules enable deep interaction: Dynamic Query Allocation adaptively assigns 2D queries to 3D candidates, and Adaptive Query Aggregation refines 3D representations using multi-view 2D features, forming a cyclic 3D-2D-3D refinement. For multi-view 2D detection, we use Query-group Attention for intra-group communication. We also design a Crop-and-Scale strategy for long-range perception and a Propagating Denoising strategy with an auxiliary RoI detector. SimPB++ supports mixed supervision with 2D-only and fully annotated data, reducing reliance on expensive 3D labels. Experiments show state-of-the-art performance on nuScenes for both tasks and strong long-range detection (up to 150m) on Argoverse2.
- Abstract(参考訳): ビュービューにおける2次元物体の同時認識と、バードアイビュー(BEV)における3次元物体の認識は、マルチカメラ自律運転において困難である。
既存の2段階パイプラインは、3D検出のための1回のキューとしてのみ、2D結果を使用する。
複数のカメラから2次元オブジェクトと3次元オブジェクトを同時に検出するSimPB++を提案する。
両方のタスクをハイブリッドデコーダアーキテクチャでエンドツーエンドモデルに統合し、マルチビュー2Dと3Dデコーダを対話的に結合する。
Dynamic Query Allocationは3D候補に適応的に2Dクエリを割り当て、Adaptive Query Aggregationは多視点2D特徴を使って3D表現を洗練し、循環的な3D-2D-3D改善を形成する。
マルチビュー2D検出には、グループ内通信にQuery-group Attentionを使用します。
また、長距離認識のためのクロップ・アンド・スケール戦略や、補助的なRoI検出器を用いたプロパゲーティング・デノケーション戦略も設計する。
SimPB++は2Dのみのデータと完全に注釈付けされたデータとの混在の管理をサポートし、高価な3Dラベルへの依存を減らす。
実験では、タスクとArgoverse2の強い長距離検出(最大150m)の両方でnuScenesの最先端性能が示されている。
関連論文リスト
- SegDINO3D: 3D Instance Segmentation Empowered by Both Image-Level and Object-Level 2D Features [61.13570953713554]
SegDINO3Dは、3Dインスタンスセグメンテーションのためのトランスフォーマーエンコーダデコーダフレームワークである。
画像レベルとオブジェクトレベルの両方の機能を含む、事前訓練された2D検出モデルから2D表現を完全に活用する。
SegDINO3Dは、ScanNetV2とScanNet200インスタンスセグメンテーションベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-19T15:41:10Z) - 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [62.57179069154312]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - Roadside Monocular 3D Detection Prompted by 2D Detection [13.085987471715725]
本稿では,プロンプタブル3D検出器(Promptable 3D Detector, Pro3D)を紹介する。
Pro3Dは、最小限の修正で広範囲の2Dおよび3D検出器での使用に適応できる。
論文 参考訳(メタデータ) (2024-04-01T11:57:34Z) - SimPB: A Single Model for 2D and 3D Object Detection from Multiple Cameras [3.648972014796591]
ビュービュー内の2Dオブジェクトと、複数のカメラからBEV空間内の3Dオブジェクトを同時に検出するSimPBと呼ばれる単一のモデルを提案する。
ハイブリッドデコーダは複数のマルチビュー2Dデコーダ層と複数の3Dデコーダ層で構成され、それぞれの検出タスク用に特別に設計されている。
論文 参考訳(メタデータ) (2024-03-15T14:39:39Z) - Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors [6.3557174349423455]
本稿では,2次元検出結果から3次元クエリアンカーを推定するQAF2Dという新しいクエリ生成手法を提案する。
QAF2DがnuScenesの検証サブセットにもたらす最大の改善は、NDSが2.3%、mAPが2.7%である。
論文 参考訳(メタデータ) (2024-03-10T04:38:27Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection [6.5702792909006735]
YOLOStereo3Dは1つのGPUでトレーニングされ、10fps以上で動作する。
LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-03-17T03:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。