論文の概要: Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments
- arxiv url: http://arxiv.org/abs/2403.13556v2
- Date: Fri, 12 Jul 2024 10:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 04:57:27.457365
- Title: Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments
- Title(参考訳): Find n' Propagate: 都市環境におけるオープンボキャブラリ3次元物体検出
- Authors: Djamahl Etchegaray, Zi Huang, Tatsuya Harada, Yadan Luo,
- Abstract要約: 我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
- 参考スコア(独自算出の注目度): 67.83787474506073
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we tackle the limitations of current LiDAR-based 3D object detection systems, which are hindered by a restricted class vocabulary and the high costs associated with annotating new object classes. Our exploration of open-vocabulary (OV) learning in urban environments aims to capture novel instances using pre-trained vision-language models (VLMs) with multi-sensor data. We design and benchmark a set of four potential solutions as baselines, categorizing them into either top-down or bottom-up approaches based on their input data strategies. While effective, these methods exhibit certain limitations, such as missing novel objects in 3D box estimation or applying rigorous priors, leading to biases towards objects near the camera or of rectangular geometries. To overcome these limitations, we introduce a universal \textsc{Find n' Propagate} approach for 3D OV tasks, aimed at maximizing the recall of novel objects and propagating this detection capability to more distant areas thereby progressively capturing more. In particular, we utilize a greedy box seeker to search against 3D novel boxes of varying orientations and depth in each generated frustum and ensure the reliability of newly identified boxes by cross alignment and density ranker. Additionally, the inherent bias towards camera-proximal objects is alleviated by the proposed remote simulator, which randomly diversifies pseudo-labeled novel instances in the self-training process, combined with the fusion of base samples in the memory bank. Extensive experiments demonstrate a 53% improvement in novel recall across diverse OV settings, VLMs, and 3D detectors. Notably, we achieve up to a 3.97-fold increase in Average Precision (AP) for novel object classes. The source code is made available at https://github.com/djamahl99/findnpropagate.
- Abstract(参考訳): 本研究では,従来のLiDARに基づく3次元オブジェクト検出システムの限界に対処する。
都市環境におけるオープンボキャブラリ(OV)学習の探索は,複数センサデータを用いた事前学習型視覚言語モデル(VLM)を用いて,新規なインスタンスを捕捉することを目的としている。
入力データ戦略に基づいて、トップダウンまたはボトムアップのアプローチに分類し、ベースラインとして4つの潜在的なソリューションを設計し、ベンチマークする。
有効ではあるが、これらの手法は、3Dボックス推定における新しい物体の欠如や厳密な事前適用といった一定の制限を示しており、カメラや長方形地形の物体に偏りが生じる。
これらの制約を克服するために、新しい物体のリコールを最大化し、この検出能力をより遠くまで伝播させることを目的として、3次元OVタスクに対して普遍的な \textsc{Find n' Propagate} アプローチを導入する。
特に、グリーディボックス探索器を用いて、生成したフラストラムごとに異なる向きと深さの3D新鮮ボックスを探索し、クロスアライメントと密度ランク付けにより、新たに同定されたボックスの信頼性を確保する。
さらに、カメラ近位物体に対する固有のバイアスは、メモリバンク内のベースサンプルの融合と相まって、自己学習プロセスにおいて擬似ラベル付き新規インスタンスをランダムに分散する遠隔シミュレーターによって軽減される。
大規模な実験では、様々なOV設定、VLM、および3D検出器にまたがる新しいリコールが53%改善された。
特に、新しいオブジェクトクラスに対する平均精度(AP)が最大3.97倍に向上する。
ソースコードはhttps://github.com/djamahl99/findnpropagateで公開されている。
関連論文リスト
- Open Vocabulary Monocular 3D Object Detection [10.424711580213616]
RGB画像から3次元空間内の物体を検出しローカライズすることを目的とした新しい課題であるオープンボキャブラリモノクロ3Dオブジェクト検出の研究を開拓した。
オープンボキャブラリ2次元検出器を活用して2次元境界ボックスを3次元空間に持ち上げるクラス非依存的手法を提案する。
提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
論文 参考訳(メタデータ) (2024-11-25T18:59:17Z) - Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for
Open-vocabulary 3D Object Detection [38.144357345583664]
Open-vocabulary 3D Object Detection (OV-3DDet)は、3Dシーン内の任意のカテゴリのリストからオブジェクトを検出することを目的としている。
本論文は, 限定された基本カテゴリーの条件下で, 統一された枠組みを用いて, 2つの問題を同時に解決することを目的とする。
新規な3Dオブジェクトをローカライズするために,従来の3Dボックス幾何と2Dセマンティックなオープン語彙の両方を用いて,新規なオブジェクトの擬似ボックスラベルを生成する,効果的な3D新規オブジェクト発見戦略を提案する。
論文 参考訳(メタデータ) (2023-10-04T16:50:51Z) - Exploring Active 3D Object Detection from a Generalization Perspective [58.597942380989245]
不確実性に基づくアクティブな学習ポリシーは、ポイントクラウドの情報性とボックスレベルのアノテーションコストの間のトレードオフのバランスを取れません。
冗長な3次元境界ボックスラベルの点群を階層的にフィルタリングするtextscCrbを提案する。
実験により,提案手法が既存のアクティブラーニング戦略より優れていることが示された。
論文 参考訳(メタデータ) (2023-01-23T02:43:03Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - ImpDet: Exploring Implicit Fields for 3D Object Detection [74.63774221984725]
我々は、境界ボックス回帰を暗黙の関数として見る新しい視点を導入する。
これは、Implicit DetectionまたはImpDetと呼ばれる提案されたフレームワークにつながります。
我々のImpDetは、異なる局所的な3次元空間の点に特定の値を割り当て、高品質な境界を生成することができる。
論文 参考訳(メタデータ) (2022-03-31T17:52:12Z) - Semi-supervised 3D Object Detection via Adaptive Pseudo-Labeling [18.209409027211404]
3次元物体検出はコンピュータビジョンにおいて重要な課題である。
既存のほとんどのメソッドでは、多くの高品質な3Dアノテーションが必要です。
本研究では,屋外3次元物体検出タスクのための擬似ラベルに基づく新しい半教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T02:58:43Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。