論文の概要: BoxFusion: Reconstruction-Free Open-Vocabulary 3D Object Detection via Real-Time Multi-View Box Fusion
- arxiv url: http://arxiv.org/abs/2506.15610v1
- Date: Wed, 18 Jun 2025 16:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.742127
- Title: BoxFusion: Reconstruction-Free Open-Vocabulary 3D Object Detection via Real-Time Multi-View Box Fusion
- Title(参考訳): BoxFusion:リアルタイムマルチビューボックスフュージョンによる復元不要なオープンボキャブラリ3次元物体検出
- Authors: Yuqing Lan, Chenyang Zhu, Zhirui Gao, Jiazhao Zhang, Yihan Cao, Renjiao Yi, Yijie Wang, Kai Xu,
- Abstract要約: 本稿では,メモリ効率とリアルタイム3D検出に適した,再構成不要な新しいオンラインフレームワークを提案する。
本手法は,オンライン手法の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 16.079323626739857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary 3D object detection has gained significant interest due to its critical applications in autonomous driving and embodied AI. Existing detection methods, whether offline or online, typically rely on dense point cloud reconstruction, which imposes substantial computational overhead and memory constraints, hindering real-time deployment in downstream tasks. To address this, we propose a novel reconstruction-free online framework tailored for memory-efficient and real-time 3D detection. Specifically, given streaming posed RGB-D video input, we leverage Cubify Anything as a pre-trained visual foundation model (VFM) for single-view 3D object detection by bounding boxes, coupled with CLIP to capture open-vocabulary semantics of detected objects. To fuse all detected bounding boxes across different views into a unified one, we employ an association module for correspondences of multi-views and an optimization module to fuse the 3D bounding boxes of the same instance predicted in multi-views. The association module utilizes 3D Non-Maximum Suppression (NMS) and a box correspondence matching module, while the optimization module uses an IoU-guided efficient random optimization technique based on particle filtering to enforce multi-view consistency of the 3D bounding boxes while minimizing computational complexity. Extensive experiments on ScanNetV2 and CA-1M datasets demonstrate that our method achieves state-of-the-art performance among online methods. Benefiting from this novel reconstruction-free paradigm for 3D object detection, our method exhibits great generalization abilities in various scenarios, enabling real-time perception even in environments exceeding 1000 square meters.
- Abstract(参考訳): オープンボキャブラリの3Dオブジェクト検出は、自律運転と組込みAIにおける重要な応用のために、大きな関心を集めている。
既存の検出方法は、オフラインでもオンラインでも、通常、高密度のクラウド再構成に依存しており、計算上のオーバーヘッドとメモリの制約をかなり課し、下流タスクのリアルタイムデプロイメントを妨げている。
そこで本研究では,メモリ効率とリアルタイム3D検出に適した,再構成不要な新しいオンラインフレームワークを提案する。
具体的には,ストリーミングが提案するRGB-Dビデオ入力を前提として,CLIPと結合して検出されたオブジェクトのオープン語彙意味をキャプチャする,一視点3Dオブジェクト検出のための事前学習された視覚基礎モデル(VFM)として,Cubeify Anythingを利用する。
異なるビューにまたがる全ての検出されたバウンディングボックスを統一したものに融合するために、マルチビューの対応のためのアソシエーションモジュールと、マルチビューで予測される同じインスタンスの3Dバウンディングボックスを融合する最適化モジュールを用いる。
このアソシエーションモジュールは3次元非最大圧縮(NMS)とボックス対応マッチングモジュールを使用し、最適化モジュールは粒子フィルタリングに基づくIoU誘導の効率的なランダム最適化手法を用いて、計算複雑性を最小化しながら3次元境界ボックスのマルチビュー一貫性を強制する。
ScanNetV2およびCA-1Mデータセットの大規模な実験により,本手法がオンライン手法の最先端性能を実現することを示す。
提案手法は3次元物体検出のための新規な再構成自由パラダイムを応用し,1000平方メートルを超える環境でもリアルタイムの認識が可能となる,様々なシナリオにおいて優れた一般化能力を示す。
関連論文リスト
- Boosting 3D Object Detection with Semantic-Aware Multi-Branch Framework [44.44329455757931]
自律走行では、LiDARセンサーは3Dポイントの雲の取得に不可欠であり、信頼できる幾何学的情報を提供する。
従来の前処理のサンプリング手法は意味的特徴を無視することが多く、詳細な損失や接地点干渉を引き起こす。
本稿では,Semantic-aware Multi-branch Smpling (SMS)モジュールとマルチビュー制約を用いたマルチブランチ2次元オブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-08T09:25:45Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - 3D-MAN: 3D Multi-frame Attention Network for Object Detection [22.291051951077485]
3D-MANは、複数の視点から効果的に機能を集約する3Dマルチフレームアテンションネットワークです。
3D-MANは, 単フレームおよび複数フレームの手法と比較して, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-30T03:44:22Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。