論文の概要: SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic Prompts
- arxiv url: http://arxiv.org/abs/2503.06467v1
- Date: Sun, 09 Mar 2025 06:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:56.257637
- Title: SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic Prompts
- Title(参考訳): SP3D: 高精度なクロスモーダル・セマンティック・プロンプトによる軽快な3次元物体検出
- Authors: Shijia Zhao, Qiming Xia, Xusheng Guo, Pufan Zou, Maoji Zheng, Hai Wu, Chenglu Wen, Cheng Wang,
- Abstract要約: スパース制御された3Dオブジェクト検出は注目され、完全に教師された3Dオブジェクト・オブジェクタに近い性能を実現している。
本研究では,スパースアノテーション設定下での頑健な特徴識別機能を備えた3D検出器の強化を目的とした,SP3Dと呼ばれるブースティング戦略を提案する。
実験により、SP3Dはわずかに観察された検出器の性能を、平均的なラベル付け条件下で大きなマージンで向上させることができることが確認された。
- 参考スコア(独自算出の注目度): 13.349110509879312
- License:
- Abstract: Recently, sparsely-supervised 3D object detection has gained great attention, achieving performance close to fully-supervised 3D objectors while requiring only a few annotated instances. Nevertheless, these methods suffer challenges when accurate labels are extremely absent. In this paper, we propose a boosting strategy, termed SP3D, explicitly utilizing the cross-modal semantic prompts generated from Large Multimodal Models (LMMs) to boost the 3D detector with robust feature discrimination capability under sparse annotation settings. Specifically, we first develop a Confident Points Semantic Transfer (CPST) module that generates accurate cross-modal semantic prompts through boundary-constrained center cluster selection. Based on these accurate semantic prompts, which we treat as seed points, we introduce a Dynamic Cluster Pseudo-label Generation (DCPG) module to yield pseudo-supervision signals from the geometry shape of multi-scale neighbor points. Additionally, we design a Distribution Shape score (DS score) that chooses high-quality supervision signals for the initial training of the 3D detector. Experiments on the KITTI dataset and Waymo Open Dataset (WOD) have validated that SP3D can enhance the performance of sparsely supervised detectors by a large margin under meager labeling conditions. Moreover, we verified SP3D in the zero-shot setting, where its performance exceeded that of the state-of-the-art methods. The code is available at https://github.com/xmuqimingxia/SP3D.
- Abstract(参考訳): 近年, 狭義の3Dオブジェクト検出が注目され, 完全教師付き3Dオブジェクトに近づき, アノテーション付インスタンスをわずかに必要としている。
しかしながら、これらの手法は、正確なラベルが極めて欠落している場合に困難を被る。
本稿では,SP3Dと呼ばれる,大規模マルチモーダルモデル(LMM)から生成されるクロスモーダルなセマンティックプロンプトを明示的に活用して,スパースアノテーション設定下での頑健な特徴識別機能を備えた3D検出器の強化戦略を提案する。
具体的には、まず、境界制約付き中心クラスタ選択により正確な相互意味的プロンプトを生成する信頼点意味伝達(CPST)モジュールを開発する。
シードポイントとして扱うこれらの正確なセマンティックプロンプトに基づいて,マルチスケールの隣接点の幾何学的形状から擬似スーパービジョン信号を生成するために,動的クラスタ・擬似ラベル生成(DCPG)モジュールを導入する。
さらに,3次元検出器の初期訓練のための高品質な監視信号を選択する分散形状スコア(DSスコア)を設計する。
KITTIデータセットとWaymo Open Dataset (WOD)の実験は、SP3Dがわずかに監視された検出器の性能を、単なるラベル付け条件下で大きなマージンで向上できることを検証した。
さらに,その性能が最先端手法よりも高いゼロショット設定でSP3Dを検証した。
コードはhttps://github.com/xmuqimingxia/SP3Dで公開されている。
関連論文リスト
- Diff3DETR:Agent-based Diffusion Model for Semi-supervised 3D Object Detection [33.58208166717537]
3次元物体検出は3次元シーンの理解に不可欠である。
半教師付き手法の最近の発展は、教師による学習フレームワークを用いて、未ラベルの点群に対する擬似ラベルを生成することにより、この問題を緩和しようとしている。
半教師付き3次元物体検出のためのエージェントベース拡散モデル(Diff3DETR)を提案する。
論文 参考訳(メタデータ) (2024-08-01T05:04:22Z) - Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection [108.672972439282]
SSM3ODに対するDPL(decoupled pseudo-labeling)アプローチを提案する。
提案手法は,擬似ラベルを効率的に生成するためのDPGモジュールを特徴とする。
また,擬似ラベルの雑音深度監視による最適化競合を軽減するために,DGPモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-26T05:12:18Z) - SPGroup3D: Superpoint Grouping Network for Indoor 3D Object Detection [23.208654655032955]
屋内シーンにおける現在の3Dオブジェクト検出手法は,主に投票・グループ化戦略に従って提案を行う。
屋内アンカーフリーワンステージ3次元物体検出のための新しいスーパーポイントグループネットワークを提案する。
実験により,ScanNet V2, SUN RGB-D, S3DISデータセット上での最先端性能を実証した。
論文 参考訳(メタデータ) (2023-12-21T08:08:02Z) - SSC3OD: Sparsely Supervised Collaborative 3D Object Detection from LiDAR
Point Clouds [16.612824810651897]
疎密な協調3Dオブジェクト検出フレームワークSSC3ODを提案する。
各エージェントは、シーン内の1つのオブジェクトをランダムにラベルするだけです。
疎調整された3Dオブジェクト検出器の性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-07-03T02:42:14Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - A Lightweight and Detector-free 3D Single Object Tracker on Point Clouds [50.54083964183614]
生のLiDARスキャンにおける物体の点雲は、通常スパースで不完全であるため、正確な目標固有検出を行うのは簡単ではない。
DMTは、複雑な3D検出器の使用を完全に除去する3Dトラッキングネットワークである。
論文 参考訳(メタデータ) (2022-03-08T17:49:07Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。