論文の概要: Towards 3D Objectness Learning in an Open World
- arxiv url: http://arxiv.org/abs/2510.17686v1
- Date: Mon, 20 Oct 2025 16:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.512357
- Title: Towards 3D Objectness Learning in an Open World
- Title(参考訳): オープンワールドにおける3次元オブジェクト指向学習に向けて
- Authors: Taichi Liu, Zhenyu Wang, Ruofeng Liu, Guang Wang, Desheng Zhang,
- Abstract要約: 我々は,手作りのテキストプロンプトに頼らずに3Dシーン内の物体を検知する,クラス非依存のオープンワールドプロンプトフリー3D検出器OP3Detを提案する。
OP3Detは既存のオープンワールドの3D検出器を最大16.4%超え、クローズドワールドの3D検出器に比べて13.5%改善している。
- 参考スコア(独自算出の注目度): 19.994404833308092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in 3D object detection and novel category detection have made significant progress, yet research on learning generalized 3D objectness remains insufficient. In this paper, we delve into learning open-world 3D objectness, which focuses on detecting all objects in a 3D scene, including novel objects unseen during training. Traditional closed-set 3D detectors struggle to generalize to open-world scenarios, while directly incorporating 3D open-vocabulary models for open-world ability struggles with vocabulary expansion and semantic overlap. To achieve generalized 3D object discovery, We propose OP3Det, a class-agnostic Open-World Prompt-free 3D Detector to detect any objects within 3D scenes without relying on hand-crafted text prompts. We introduce the strong generalization and zero-shot capabilities of 2D foundation models, utilizing both 2D semantic priors and 3D geometric priors for class-agnostic proposals to broaden 3D object discovery. Then, by integrating complementary information from point cloud and RGB image in the cross-modal mixture of experts, OP3Det dynamically routes uni-modal and multi-modal features to learn generalized 3D objectness. Extensive experiments demonstrate the extraordinary performance of OP3Det, which significantly surpasses existing open-world 3D detectors by up to 16.0% in AR and achieves a 13.5% improvement compared to closed-world 3D detectors.
- Abstract(参考訳): 近年の3Dオブジェクト検出と新しいカテゴリ検出の進歩は大きな進歩を遂げているが、一般化された3Dオブジェクトの学習に関する研究はいまだ不十分である。
本稿では,訓練中に見つからない新しい物体を含む3Dシーンのすべての物体を検出することに焦点を当てた,オープンワールドな3Dオブジェクトの学習について検討する。
従来のクローズドセット3D検出器は、オープンワールドシナリオへの一般化に苦慮し、オープンワールド能力のための3Dオープンボキャブラリモデルを直接組み込むことで、ボキャブラリの拡張とセマンティックオーバーラップに苦労する。
汎用的な3Dオブジェクト発見を実現するために,手作りのテキストプロンプトに頼ることなく3Dシーン内の任意のオブジェクトを検出するクラス非依存のOpen-World Promptフリーな3D検出器OP3Detを提案する。
本稿では,2次元のセマンティック先行モデルと3次元幾何学的先行モデルを用いて,3次元オブジェクト発見を拡大するクラス非依存的提案手法を用いて,2次元基礎モデルの強一般化とゼロショット機能を導入する。
そこで, OP3Detは, 点雲とRGB画像の相補的な情報を専門家のクロスモーダルな混合に組み込むことで, 動的にユニモーダル・マルチモーダルな特徴をルーティングし, 一般化された3Dオブジェクトネスを学習する。
OP3Detは、既存のオープンワールドの3D検出器を最大16.0%超え、クローズドワールドの3D検出器に比べて13.5%向上している。
関連論文リスト
- 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [62.57179069154312]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - Detect Anything 3D in the Wild [34.293450721860616]
DetAny3Dは任意のカメラ構成で新しい物体を検知できる3D検出基盤モデルである。
2D知識を3Dに効果的に転送するために、DetAny3Dは2DアグリゲータとZero-Embedding Mappingによる3Dインタプリタという2つのコアモジュールを組み込んでいる。
DetAny3Dは、未確認のカテゴリや新しいカメラ構成の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-10T17:59:22Z) - Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。