論文の概要: CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for
Open-vocabulary 3D Object Detection
- arxiv url: http://arxiv.org/abs/2310.02960v1
- Date: Wed, 4 Oct 2023 16:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 14:00:40.229562
- Title: CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for
Open-vocabulary 3D Object Detection
- Title(参考訳): CoDA:オープンボキャブラリ3Dオブジェクト検出のための協調的新しいボックス発見とクロスモーダルアライメント
- Authors: Yang Cao, Yihan Zeng, Hang Xu, Dan Xu
- Abstract要約: Open-vocabulary 3D Object Detection (OV-3DDet)は、3Dシーン内の任意のカテゴリのリストからオブジェクトを検出することを目的としている。
本論文は, 限定された基本カテゴリーの条件下で, 統一された枠組みを用いて, 2つの問題を同時に解決することを目的とする。
新規な3Dオブジェクトをローカライズするために,従来の3Dボックス幾何と2Dセマンティックなオープン語彙の両方を用いて,新規なオブジェクトの擬似ボックスラベルを生成する,効果的な3D新規オブジェクト発見戦略を提案する。
- 参考スコア(独自算出の注目度): 38.144357345583664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary 3D Object Detection (OV-3DDet) aims to detect objects from an
arbitrary list of categories within a 3D scene, which remains seldom explored
in the literature. There are primarily two fundamental problems in OV-3DDet,
i.e., localizing and classifying novel objects. This paper aims at addressing
the two problems simultaneously via a unified framework, under the condition of
limited base categories. To localize novel 3D objects, we propose an effective
3D Novel Object Discovery strategy, which utilizes both the 3D box geometry
priors and 2D semantic open-vocabulary priors to generate pseudo box labels of
the novel objects. To classify novel object boxes, we further develop a
cross-modal alignment module based on discovered novel boxes, to align feature
spaces between 3D point cloud and image/text modalities. Specifically, the
alignment process contains a class-agnostic and a class-discriminative
alignment, incorporating not only the base objects with annotations but also
the increasingly discovered novel objects, resulting in an iteratively enhanced
alignment. The novel box discovery and crossmodal alignment are jointly learned
to collaboratively benefit each other. The novel object discovery can directly
impact the cross-modal alignment, while a better feature alignment can, in
turn, boost the localization capability, leading to a unified OV-3DDet
framework, named CoDA, for simultaneous novel object localization and
classification. Extensive experiments on two challenging datasets (i.e.,
SUN-RGBD and ScanNet) demonstrate the effectiveness of our method and also show
a significant mAP improvement upon the best-performing alternative method by
80%. Codes and pre-trained models are released on the project page.
- Abstract(参考訳): Open-vocabulary 3D Object Detection (OV-3DDet)は、3Dシーン内の任意のカテゴリのリストからオブジェクトを検出することを目的としている。
ov-3ddetには、主に2つの根本的な問題、すなわち新しいオブジェクトのローカライズと分類がある。
本稿では,この2つの問題を,限定的な基本カテゴリ条件の下で,統一的な枠組みを通じて同時に解決することを目的とする。
新規な3Dオブジェクトをローカライズするために,従来の3Dボックス幾何と2Dセマンティックなオープン語彙の両方を用いて,新規なオブジェクトの擬似ボックスラベルを生成する,効果的な3D新規オブジェクト発見戦略を提案する。
新たなオブジェクトボックスを分類するために,新たに発見された3Dポイントクラウドと画像/テキストモダリティ間の特徴空間をアライメントするクロスモーダルアライメントモジュールを開発した。
具体的には、アライメントプロセスは、クラス非依存およびクラス識別アライメントを含み、ベースオブジェクトにアノテーションを付加するだけでなく、新たに発見された新しいオブジェクトも含み、反復的にアライメントが強化される。
ボックス発見とクロスモーダルアライメントは共同で学習され、相互に利益をもたらす。
新たなオブジェクト発見は、クロスモーダルアライメントに直接影響し得る一方で、より良い特徴アライメントは、ローカライゼーション能力を高め、同時に新しいオブジェクトローカライゼーションと分類のための統合されたOV-3DDetフレームワークであるCoDAに繋がる。
SUN-RGBD と ScanNet の2つの挑戦的データセットに対する大規模な実験は,本手法の有効性を示すとともに,最適性能の代替手法を80%向上させた。
コードと事前訓練されたモデルはプロジェクトページでリリースされている。
関連論文リスト
- Open Vocabulary Monocular 3D Object Detection [10.424711580213616]
RGB画像から3次元空間内の物体を検出しローカライズすることを目的とした新しい課題であるオープンボキャブラリモノクロ3Dオブジェクト検出の研究を開拓した。
オープンボキャブラリ2次元検出器を活用して2次元境界ボックスを3次元空間に持ち上げるクラス非依存的手法を提案する。
提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
論文 参考訳(メタデータ) (2024-11-25T18:59:17Z) - Syn-to-Real Unsupervised Domain Adaptation for Indoor 3D Object Detection [50.448520056844885]
室内3次元物体検出における非教師なし領域適応のための新しいフレームワークを提案する。
合成データセット3D-FRONTから実世界のデータセットScanNetV2とSUN RGB-Dへの適応結果は、ソースオンリーベースラインよりも9.7%、9.1%のmAP25が顕著に改善されていることを示している。
論文 参考訳(メタデータ) (2024-06-17T08:18:41Z) - Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection [34.91703960513125]
CoDAv2は、新しい3Dオブジェクトのローカライズと分類の両方に取り組むために設計された統一フレームワークである。
CoDAv2は、高いマージンで最高のパフォーマンスの方法より優れている。
ソースコードと事前トレーニングされたモデルはGitHubプロジェクトページで公開されている。
論文 参考訳(メタデータ) (2024-06-02T18:32:37Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object
Detection [41.24059083441953]
OpenSightは、LiDARベースのオープン語彙検出のためのより高度な2D-3Dモデリングフレームワークである。
提案手法は,広く使用されている3次元検出ベンチマークにおいて,最先端のオープン語彙性能を確立する。
論文 参考訳(メタデータ) (2023-12-12T07:49:30Z) - Revisiting Domain-Adaptive 3D Object Detection by Reliable, Diverse and
Class-balanced Pseudo-Labeling [38.07637524378327]
ドメイン適応型3Dオブジェクト検出において,疑似ラベリング技術を用いた教師なしドメイン適応(DA)が重要なアプローチとして浮上している。
既存のDAメソッドは、マルチクラスのトレーニング環境に適用した場合、パフォーマンスが大幅に低下する。
本稿では,すべてのクラスを一度に検出する学習に適した新しいReDBフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-16T04:34:11Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Open-Vocabulary Point-Cloud Object Detection without 3D Annotation [62.18197846270103]
オープン語彙の3Dポイントクラウド検出の目的は、任意のテキスト記述に基づいて新しいオブジェクトを識別することである。
様々な物体を局所化するための一般的な表現を学習できる点クラウド検出器を開発した。
また,画像,点雲,テキストのモダリティを結合する,非偏差三重項クロスモーダルコントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。