論文の概要: Just Add Geometry: Gradient-Free Open-Vocabulary 3D Detection Without Human-in-the-Loop
- arxiv url: http://arxiv.org/abs/2507.13363v1
- Date: Sun, 06 Jul 2025 15:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-27 08:26:15.902335
- Title: Just Add Geometry: Gradient-Free Open-Vocabulary 3D Detection Without Human-in-the-Loop
- Title(参考訳): Just Add Geometry:人間ではなく、自由なオープンボキャブラリー3D検出
- Authors: Atharv Goel, Mehar Khurana,
- Abstract要約: Webスケールのイメージテキストペアでトレーニングされた2次元視覚言語モデルは、リッチなセマンティック理解を示し、オープン語彙検出をサポートする。
我々は,2次元基礎モデルの成熟度とカテゴリの多様性を利用して,人間に注釈を付けた3次元ラベルを使わずに3次元オブジェクト検出を行う。
この結果は,スケーラブルな3D知覚のための2次元基礎モデルの未完成の可能性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern 3D object detection datasets are constrained by narrow class taxonomies and costly manual annotations, limiting their ability to scale to open-world settings. In contrast, 2D vision-language models trained on web-scale image-text pairs exhibit rich semantic understanding and support open-vocabulary detection via natural language prompts. In this work, we leverage the maturity and category diversity of 2D foundation models to perform open-vocabulary 3D object detection without any human-annotated 3D labels. Our pipeline uses a 2D vision-language detector to generate text-conditioned proposals, which are segmented with SAM and back-projected into 3D using camera geometry and either LiDAR or monocular pseudo-depth. We introduce a geometric inflation strategy based on DBSCAN clustering and Rotating Calipers to infer 3D bounding boxes without training. To simulate adverse real-world conditions, we construct Pseudo-nuScenes, a fog-augmented, RGB-only variant of the nuScenes dataset. Experiments demonstrate that our method achieves competitive localization performance across multiple settings, including LiDAR-based and purely RGB-D inputs, all while remaining training-free and open-vocabulary. Our results highlight the untapped potential of 2D foundation models for scalable 3D perception. We open-source our code and resources at https://github.com/atharv0goel/open-world-3D-det.
- Abstract(参考訳): 現代の3Dオブジェクト検出データセットは、狭いクラス分類と高価な手作業によるアノテーションによって制約され、オープンワールド設定にスケールする能力を制限する。
対照的に、Webスケールの画像テキストペアで訓練された2次元視覚言語モデルは、リッチなセマンティック理解を示し、自然言語プロンプトによるオープン語彙の検出をサポートする。
本研究では,2次元基礎モデルの成熟度とカテゴリの多様性を活用し,人手による3次元ラベルを使わずにオープンな3次元オブジェクト検出を行う。
我々のパイプラインは、2次元視覚言語検出器を使用してテキスト条件付き提案を生成する。SAMでセグメント化され、カメラ幾何学を用いて3Dにバックプロジェクションされ、LiDARまたは単眼の擬似深度のいずれかで処理される。
本稿では,DBSCANクラスタリングと回転キャリパーに基づく幾何学的インフレーション戦略を導入し,トレーニングなしで3次元境界ボックスを推定する。
悪質な実世界の条件をシミュレートするため,霧を増したRGBのみのnuScenesデータセットであるPseudo-nuScenesを構築した。
実験により,LiDARと純粋にRGB-Dの入力を含む複数の設定において,学習自由かつオープンな語彙を保ちながら,競合的なローカライズ性能を実現することを示す。
この結果は,スケーラブルな3D知覚のための2次元基礎モデルの未完成の可能性を強調した。
コードとリソースはhttps://github.com/atharv0goel/open-world-3D-det.comで公開しています。
関連論文リスト
- HyperPointFormer: Multimodal Fusion in 3D Space with Dual-Branch Cross-Attention Transformers [10.24051363232541]
マルチモーダルリモートセンシングデータ(スペクトル,ライダー,フォトグラムなど)は,都市景観における土地利用・土地被覆分類の達成に不可欠である。
本稿では,3Dポイントクラウド内のすべてのモダリティを融合する完全3Dベースの手法を提案し,専用のデュアルアテンショントランスモデルを用いる。
以上の結果から, 3次元融合は2次元法と比較して競争力があり, 3次元予測を提供することにより, 柔軟性が向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-29T07:45:19Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。
我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文 参考訳(メタデータ) (2024-06-04T07:42:33Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文 参考訳(メタデータ) (2024-01-17T18:51:53Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - Recursive Cross-View: Use Only 2D Detectors to Achieve 3D Object
Detection without 3D Annotations [0.5439020425819]
本稿では,完全指向の3D境界ボックスを予測しながら,一切の3Dアノテーションを要求しない手法を提案する。
再帰的クロスビュー(Recursive Cross-View, RCV)と呼ばれる手法は, 3次元検出を複数の2次元検出タスクに変換するために3次元原理を利用する。
RCVは、3Dラベルを使わずに完全な3Dボックスを生成する最初の3D検出方法である。
論文 参考訳(メタデータ) (2022-11-14T04:51:05Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。