論文の概要: Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection
- arxiv url: http://arxiv.org/abs/2406.00830v1
- Date: Sun, 2 Jun 2024 18:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 03:16:50.544561
- Title: Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection
- Title(参考訳): オープンボキャブラリ3次元物体検出のための協調的新しい物体発見とボックスガイドによるクロスモーダルアライメント
- Authors: Yang Cao, Yihan Zeng, Hang Xu, Dan Xu,
- Abstract要約: CoDAv2は、新しい3Dオブジェクトのローカライズと分類の両方に取り組むために設計された統一フレームワークである。
CoDAv2は、高いマージンで最高のパフォーマンスの方法より優れている。
ソースコードと事前トレーニングされたモデルはGitHubプロジェクトページで公開されている。
- 参考スコア(独自算出の注目度): 34.91703960513125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary 3D Object Detection (OV-3DDet) addresses the detection of objects from an arbitrary list of novel categories in 3D scenes, which remains a very challenging problem. In this work, we propose CoDAv2, a unified framework designed to innovatively tackle both the localization and classification of novel 3D objects, under the condition of limited base categories. For localization, the proposed 3D Novel Object Discovery (3D-NOD) strategy utilizes 3D geometries and 2D open-vocabulary semantic priors to discover pseudo labels for novel objects during training. 3D-NOD is further extended with an Enrichment strategy that significantly enriches the novel object distribution in the training scenes, and then enhances the model's ability to localize more novel objects. The 3D-NOD with Enrichment is termed 3D-NODE. For classification, the Discovery-driven Cross-modal Alignment (DCMA) module aligns features from 3D point clouds and 2D/textual modalities, employing both class-agnostic and class-specific alignments that are iteratively refined to handle the expanding vocabulary of objects. Besides, 2D box guidance boosts the classification accuracy against complex background noises, which is coined as Box-DCMA. Extensive evaluation demonstrates the superiority of CoDAv2. CoDAv2 outperforms the best-performing method by a large margin (AP_Novel of 9.17 vs. 3.61 on SUN-RGBD and 9.12 vs. 3.74 on ScanNetv2). Source code and pre-trained models are available at the GitHub project page.
- Abstract(参考訳): Open-vocabulary 3D Object Detection (OV-3DDet)は、3Dシーンにおける新しいカテゴリの任意のリストからオブジェクトを検出する。
本研究では,新しい3Dオブジェクトの局所化と分類の両面を,限定された基本カテゴリの条件下で革新的に取り組んだ統合フレームワークであるCoDAv2を提案する。
ローカライズのために提案した3次元新規オブジェクト発見(3D-NOD)戦略は,3次元ジオメトリと2次元オープン語彙セマンティクスを用いて,トレーニング中に新規オブジェクトの擬似ラベルを発見する。
さらに3D-NODは、トレーニングシーンにおける新しいオブジェクト分布を大幅に強化し、さらに新しいオブジェクトをローカライズする能力を高めるエンリッチメント戦略によって拡張される。
エンリッチメント付き3D-NODは3D-NODEと呼ばれる。
分類において、Discovery-driven Cross-modal Alignment (DCMA) モジュールは、3Dポイントクラウドと2D/テキストモダリティの特徴を整列し、オブジェクトの膨張する語彙を扱うために反復的に洗練されるクラスに依存しないアライメントとクラス固有のアライメントの両方を利用する。
さらに、2Dボックス誘導により、Box-DCMAと呼ばれる複雑なバックグラウンドノイズに対する分類精度が向上する。
広範囲な評価は、CoDAv2の優位性を示している。
CoDAv2 は SUN-RGBD では 9.17 vs. 3.61 、ScanNetv2 では 9.12 vs. 3.74 である。
ソースコードと事前トレーニングされたモデルはGitHubプロジェクトページで公開されている。
関連論文リスト
- Open Vocabulary Monocular 3D Object Detection [10.424711580213616]
RGB画像から3次元空間内の物体を検出しローカライズすることを目的とした新しい課題であるオープンボキャブラリモノクロ3Dオブジェクト検出の研究を開拓した。
オープンボキャブラリ2次元検出器を活用して2次元境界ボックスを3次元空間に持ち上げるクラス非依存的手法を提案する。
提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
論文 参考訳(メタデータ) (2024-11-25T18:59:17Z) - Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object
Detection [41.24059083441953]
OpenSightは、LiDARベースのオープン語彙検出のためのより高度な2D-3Dモデリングフレームワークである。
提案手法は,広く使用されている3次元検出ベンチマークにおいて,最先端のオープン語彙性能を確立する。
論文 参考訳(メタデータ) (2023-12-12T07:49:30Z) - CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for
Open-vocabulary 3D Object Detection [38.144357345583664]
Open-vocabulary 3D Object Detection (OV-3DDet)は、3Dシーン内の任意のカテゴリのリストからオブジェクトを検出することを目的としている。
本論文は, 限定された基本カテゴリーの条件下で, 統一された枠組みを用いて, 2つの問題を同時に解決することを目的とする。
新規な3Dオブジェクトをローカライズするために,従来の3Dボックス幾何と2Dセマンティックなオープン語彙の両方を用いて,新規なオブジェクトの擬似ボックスラベルを生成する,効果的な3D新規オブジェクト発見戦略を提案する。
論文 参考訳(メタデータ) (2023-10-04T16:50:51Z) - Object2Scene: Putting Objects in Context for Open-Vocabulary 3D
Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。
従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。
本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文 参考訳(メタデータ) (2023-09-18T03:31:53Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。