論文の概要: Sparse Multiview Open-Vocabulary 3D Detection
- arxiv url: http://arxiv.org/abs/2509.15924v1
- Date: Fri, 19 Sep 2025 12:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.157437
- Title: Sparse Multiview Open-Vocabulary 3D Detection
- Title(参考訳): Sparse Multiview Open-Vocabulary 3D Detection
- Authors: Olivier Moliner, Viktor Larsson, Kalle Åström,
- Abstract要約: 3Dオブジェクト検出は伝統的に、固定されたカテゴリのセットを検出するトレーニングによって解決されてきた。
本研究では,オープンボキャブラリによる3次元物体検出の課題について検討する。
我々のアプローチは、計算コストのかかる3D特徴フュージョンを使わずに、事前訓練されたオフザシェルフ2Dファンデーションモデルに頼っている。
- 参考スコア(独自算出の注目度): 27.57172918603858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to interpret and comprehend a 3D scene is essential for many vision and robotics systems. In numerous applications, this involves 3D object detection, i.e.~identifying the location and dimensions of objects belonging to a specific category, typically represented as bounding boxes. This has traditionally been solved by training to detect a fixed set of categories, which limits its use. In this work, we investigate open-vocabulary 3D object detection in the challenging yet practical sparse-view setting, where only a limited number of posed RGB images are available as input. Our approach is training-free, relying on pre-trained, off-the-shelf 2D foundation models instead of employing computationally expensive 3D feature fusion or requiring 3D-specific learning. By lifting 2D detections and directly optimizing 3D proposals for featuremetric consistency across views, we fully leverage the extensive training data available in 2D compared to 3D. Through standard benchmarks, we demonstrate that this simple pipeline establishes a powerful baseline, performing competitively with state-of-the-art techniques in densely sampled scenarios while significantly outperforming them in the sparse-view setting.
- Abstract(参考訳): 3Dシーンを解釈し理解する能力は多くのビジョンやロボット工学システムにとって不可欠である。
多くの応用において、これは3次元物体検出(つまり、特定のカテゴリーに属する物体の位置と寸法を識別する)を伴う。
これは伝統的に、その使用を制限する固定されたカテゴリのセットを検出する訓練によって解決されてきた。
本研究では,RGB画像の限られた数しか入力として利用できない,難易度かつ実用的なスパースビュー設定において,オープンボキャブラリによる3Dオブジェクト検出について検討する。
我々のアプローチは、計算コストのかかる3D特徴融合を利用するか、3D固有の学習を必要とするかではなく、事前訓練されたオフザシェルフ2Dファンデーションモデルに頼っている。
ビュー間の特徴量整合性に関する2D検出と3D提案を直接最適化することにより、我々は3Dと比較して2Dで利用可能な広範囲なトレーニングデータを完全に活用する。
標準ベンチマークにより、この単純なパイプラインは強力なベースラインを確立し、密集したサンプルシナリオにおける最先端技術と競合し、スパースビュー環境では著しく優れることを示した。
関連論文リスト
- OpenM3D: Open Vocabulary Multi-view Indoor 3D Object Detection without Human Annotations [21.24895455233531]
オープンな多視点屋内3Dオブジェクト検出器OpenM3Dを導入する。
OpenM3Dは、ImGeoNetモデルからの2D誘起のボクセル特性に適応した単段検出器である。
推論では、高効率な検出器であるOpenM3Dは入力にマルチビュー画像しか必要とせず、精度と速度が優れている。
論文 参考訳(メタデータ) (2025-08-27T17:17:00Z) - 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [62.57179069154312]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - Weak Cube R-CNN: Weakly Supervised 3D Detection using only 2D Bounding Boxes [5.492174268132387]
3Dオブジェクト検出器は通常、完全に教師された方法で訓練され、3Dラベル付きデータに大きく依存する。
この研究は、モノクラー法によるデータ要求を減らすために、弱教師付き3D検出に焦点を当てている。
本稿では,3次元の物体を推定時に予測できる一般モデルWeak Cube R-CNNを提案する。
論文 参考訳(メタデータ) (2025-04-17T19:13:42Z) - Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Weakly Supervised 3D Object Detection from Point Clouds [27.70180601788613]
3Dオブジェクト検出は、特定のクラスに属するオブジェクトの3D境界ボックスを検出し、ローカライズすることを目的としている。
既存の3Dオブジェクト検出器は、トレーニング中にアノテーション付き3Dバウンディングボックスに依存している。
基礎となる真理3D境界ボックスを使わずに点雲からの3Dオブジェクト検出を弱教師付きで行うためのフレームワークであるVS3Dを提案する。
論文 参考訳(メタデータ) (2020-07-28T03:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。