論文の概要: Boxer: Robust Lifting of Open-World 2D Bounding Boxes to 3D
- arxiv url: http://arxiv.org/abs/2604.05212v1
- Date: Mon, 06 Apr 2026 22:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.511065
- Title: Boxer: Robust Lifting of Open-World 2D Bounding Boxes to 3D
- Title(参考訳): Boxer:オープンワールドの2Dバウンディングボックスを3Dにロバストにリフティング
- Authors: Daniel DeTone, Tianwei Shen, Fan Zhang, Lingni Ma, Julian Straub, Richard Newcombe, Jakob Engel,
- Abstract要約: Boxerは2次元オープン語彙オブジェクト検出から静的な3Dバウンディングボックス(3DBB)を推定するアルゴリズムである。
BoxerNetは2DBB提案を3Dに引き上げ、続いてマルチビューの融合と幾何学的フィルタリングにより、グローバルに一貫した非重複な3DBBを生成する。
BoxerNetは、オープンワールドの3DBBリフトにおいて最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 11.576290024949737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting and localizing objects in space is a fundamental computer vision problem. While much progress has been made to solve 2D object detection, 3D object localization is much less explored and far from solved, especially for open-world categories. To address this research challenge, we propose Boxer, an algorithm to estimate static 3D bounding boxes (3DBBs) from 2D open-vocabulary object detections, posed images and optional depth either represented as a sparse point cloud or dense depth. At its core is BoxerNet, a transformer-based network which lifts 2D bounding box (2DBB) proposals into 3D, followed by multi-view fusion and geometric filtering to produce globally consistent de-duplicated 3DBBs in metric world space. Boxer leverages the power of existing 2DBB detection algorithms (e.g. DETIC, OWLv2, SAM3) to localize objects in 2D. This allows the main BoxerNet model to focus on lifting to 3D rather than detecting, ultimately reducing the demand for costly annotated 3DBB training data. Extending the CuTR formulation, we incorporate an aleatoric uncertainty for robust regression, a median depth patch encoding to support sparse depth inputs, and large-scale training with over 1.2 million unique 3DBBs. BoxerNet outperforms state-of-the-art baselines in open-world 3DBB lifting, including CuTR in egocentric settings without dense depth (0.532 vs. 0.010 mAP) and on CA-1M with dense depth available (0.412 vs. 0.250 mAP).
- Abstract(参考訳): 宇宙空間における物体の検出と位置決めは、基本的なコンピュータビジョンの問題である。
2次元物体の検出には多くの進歩があったが、3次元物体の局所化は、特にオープンワールドのカテゴリでは、研究があまり行われず、解決には程遠い。
この課題に対処するために,2次元オープン語彙オブジェクト検出から静的な3次元境界ボックス(3DBB)を推定するアルゴリズムであるBoxerを提案する。
BoxerNetは、2Dバウンディングボックス(2DBB)の提案を3Dに持ち上げるトランスフォーマーベースのネットワークで、その後にマルチビューの融合と幾何学的フィルタリングにより、距離空間において一貫した非重複な3DBBを生成する。
Boxerは既存の2DBB検出アルゴリズム(例えば DETIC, OWLv2, SAM3)のパワーを利用してオブジェクトを2Dでローカライズする。
これにより、メインのBoxerNetモデルは、検出するよりも3Dへのリフトに集中でき、最終的に高価な注釈付き3DBBトレーニングデータの需要を削減できる。
CuTRの定式化を拡張し、頑健な回帰のためのアレタリック不確実性、スパース深度入力をサポートする中央深度パッチ符号化、120万以上のユニークな3DBBを用いた大規模トレーニングを組み込んだ。
BoxerNetは、深い深度(0.532 vs. 0.010 mAP)と深い深度(0.412 vs. 0.250 mAP)のCA-1MでCuTRを含む、オープンワールドの3DBBリフトにおいて最先端のベースラインを上回っている。
関連論文リスト
- 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [62.57179069154312]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - V-MIND: Building Versatile Monocular Indoor 3D Detector with Diverse 2D Annotations [17.49394091283978]
V-MIND(Versatile Monocular Indoor Detector)は,室内3D検出器の性能を向上させる。
大規模2次元画像を3次元点雲に変換し,その後に擬似3次元境界ボックスを導出することにより,3次元学習データを生成する。
V-MINDはOmni3D屋内データセット上の幅広いクラスにわたる最先端のオブジェクト検出性能を実現する。
論文 参考訳(メタデータ) (2024-12-16T03:28:00Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - Monocular 3D Object Detection with Decoupled Structured Polygon
Estimation and Height-Guided Depth Estimation [41.29145717658494]
本稿では,検出問題を構造化ポリゴン予測タスクと深度回復タスクに分解する新しい統合フレームワークを提案する。
広く使われている3Dバウンディングボックスの提案と比較すると、3D検出のためのより良い表現であることが示されている。
KITTIベンチマークにおいて,本手法が最先端検出精度を実現するための実験を行った。
論文 参考訳(メタデータ) (2020-02-05T03:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。