論文の概要: Zoo3D: Zero-Shot 3D Object Detection at Scene Level
- arxiv url: http://arxiv.org/abs/2511.20253v1
- Date: Tue, 25 Nov 2025 12:29:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.453023
- Title: Zoo3D: Zero-Shot 3D Object Detection at Scene Level
- Title(参考訳): Zoo3D:ゼロショット3Dオブジェクトをシーンレベルで検出する
- Authors: Andrey Lemeshko, Bulat Gabdullin, Nikita Drozdov, Anton Konushin, Danila Rukhovich, Maksim Kolodiazhnyi,
- Abstract要約: Zoo3Dは、最初のトレーニング不要な3Dオブジェクト検出フレームワークである。
本手法は,2次元マスクのグラフクラスタリングにより3次元境界ボックスを構成する。
Zoo3Dをポイントクラウドを越えて拡張して,ポーズやアンポーズの画像を直接処理します。
- 参考スコア(独自算出の注目度): 7.756226313216256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection is fundamental for spatial understanding. Real-world environments demand models capable of recognizing diverse, previously unseen objects, which remains a major limitation of closed-set methods. Existing open-vocabulary 3D detectors relax annotation requirements but still depend on training scenes, either as point clouds or images. We take this a step further by introducing Zoo3D, the first training-free 3D object detection framework. Our method constructs 3D bounding boxes via graph clustering of 2D instance masks, then assigns semantic labels using a novel open-vocabulary module with best-view selection and view-consensus mask generation. Zoo3D operates in two modes: the zero-shot Zoo3D$_0$, which requires no training at all, and the self-supervised Zoo3D$_1$, which refines 3D box prediction by training a class-agnostic detector on Zoo3D$_0$-generated pseudo labels. Furthermore, we extend Zoo3D beyond point clouds to work directly with posed and even unposed images. Across ScanNet200 and ARKitScenes benchmarks, both Zoo3D$_0$ and Zoo3D$_1$ achieve state-of-the-art results in open-vocabulary 3D object detection. Remarkably, our zero-shot Zoo3D$_0$ outperforms all existing self-supervised methods, hence demonstrating the power and adaptability of training-free, off-the-shelf approaches for real-world 3D understanding. Code is available at https://github.com/col14m/zoo3d .
- Abstract(参考訳): 3次元物体検出は空間的理解の基礎となる。
現実世界の環境は、これまで見えなかった多様な物体を認識できるモデルを必要としており、クローズド・セット・メソッドの大きな制限となっている。
既存のオープンな3D検出器は、アノテーションの要求を緩和するが、それでも点雲や画像のような訓練シーンに依存している。
トレーニング不要な最初の3Dオブジェクト検出フレームワークであるZoo3Dを導入することで、さらに一歩進めることができます。
提案手法は,2次元インスタンスマスクのグラフクラスタリングにより3次元境界ボックスを構築し,ビュー選択とビューコンセンサスマスク生成を備えた新しいオープン語彙モジュールを用いてセマンティックラベルを割り当てる。
Zoo3Dは、ゼロショットのZoo3D$_0$と、ゼロショットのZoo3D$_0$と、Zoo3D$_0$という2つのモードで動作する。
さらに、Zoo3Dをポイントクラウドを超えて拡張して、ポーズやアンポーズの画像を直接処理します。
ScanNet200とARKitScenesのベンチマークでは、Zoo3D$_0$とZoo3D$_1$の両方が、オープンな3Dオブジェクト検出で最先端の結果を達成する。
注目すべきは、ゼロショットのZoo3D$_0$は、既存の自己監督手法を全て上回り、現実の3D理解のためのトレーニング不要で既成のアプローチのパワーと適応性を示します。
コードはhttps://github.com/col14m/zoo3dで入手できる。
関連論文リスト
- LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight [105.9472902251177]
次世代の予測問題として3D検出を行うVLMネイティブレシピを提案する。
このモデルでは, 49.89 AP_3Dの精度を+15.51倍に向上した。
論文 参考訳(メタデータ) (2025-11-25T18:59:45Z) - 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [62.57179069154312]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。
我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文 参考訳(メタデータ) (2024-06-04T07:42:33Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation [32.508069732371105]
OpenIns3Dは、3Dオープン語彙シーン理解のための新しい3D入力専用フレームワークである。
様々な3Dオープン語彙タスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-01T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。