論文の概要: Enhancing Pseudo-Boxes via Data-Level LiDAR-Camera Fusion for Unsupervised 3D Object Detection
- arxiv url: http://arxiv.org/abs/2508.20530v1
- Date: Thu, 28 Aug 2025 08:15:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.198993
- Title: Enhancing Pseudo-Boxes via Data-Level LiDAR-Camera Fusion for Unsupervised 3D Object Detection
- Title(参考訳): 教師なし3次元物体検出のためのデータレベルLiDAR-Camera Fusionによる擬似ボックスの強化
- Authors: Mingqian Ji, Jian Yang, Shanshan Zhang,
- Abstract要約: RGB画像とLiDARデータを早期に統合する新しいデータレベル融合フレームワークを提案する。
本稿では,データレベルの融合に基づく動的自己進化戦略を提案する。
nuScenesデータセットの実験では、我々の方法で訓練された検出器は、従来の最先端の手法で訓練された検出器よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 18.684602624559734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing LiDAR-based 3D object detectors typically rely on manually annotated labels for training to achieve good performance. However, obtaining high-quality 3D labels is time-consuming and labor-intensive. To address this issue, recent works explore unsupervised 3D object detection by introducing RGB images as an auxiliary modal to assist pseudo-box generation. However, these methods simply integrate pseudo-boxes generated by LiDAR point clouds and RGB images. Yet, such a label-level fusion strategy brings limited improvements to the quality of pseudo-boxes, as it overlooks the complementary nature in terms of LiDAR and RGB image data. To overcome the above limitations, we propose a novel data-level fusion framework that integrates RGB images and LiDAR data at an early stage. Specifically, we utilize vision foundation models for instance segmentation and depth estimation on images and introduce a bi-directional fusion method, where real points acquire category labels from the 2D space, while 2D pixels are projected onto 3D to enhance real point density. To mitigate noise from depth and segmentation estimations, we propose a local and global filtering method, which applies local radius filtering to suppress depth estimation errors and global statistical filtering to remove segmentation-induced outliers. Furthermore, we propose a data-level fusion based dynamic self-evolution strategy, which iteratively refines pseudo-boxes under a dense representation, significantly improving localization accuracy. Extensive experiments on the nuScenes dataset demonstrate that the detector trained by our method significantly outperforms that trained by previous state-of-the-art methods with 28.4$\%$ mAP on the nuScenes validation benchmark.
- Abstract(参考訳): 既存のLiDARベースの3Dオブジェクト検出器は通常、優れたパフォーマンスを達成するために手動でアノテートされたラベルに依存している。
しかし、高品質な3Dラベルを得るには時間と労力がかかる。
この問題に対処するため、近年の研究では、擬似ボックス生成を支援する補助モダルとしてRGB画像を導入し、教師なしの3Dオブジェクト検出について検討している。
しかし、これらの手法は単純にLiDAR点雲とRGB画像によって生成された擬似ボックスを統合する。
しかし、このようなラベルレベルの融合戦略は、LiDARとRGBの画像データという相補的な性質を無視するため、擬似ボックスの品質を限定的に改善する。
上記の制限を克服するために、RGB画像とLiDARデータを早期に統合する新しいデータレベル融合フレームワークを提案する。
具体的には,画像上でのセグメンテーションや深度推定の視覚基盤モデルを利用し,実点が2次元空間からカテゴリラベルを取得する双方向融合法を導入し,実点密度を高めるために2次元画素を3次元に投影する。
深度推定とセグメンテーション推定からノイズを軽減するために,局所半径フィルタリングを深度推定誤差の抑制に応用し,大域統計的フィルタリングをセグメント化による外乱除去に応用する局所的・大域的フィルタリング法を提案する。
さらに,データレベルの融合に基づく動的自己進化戦略を提案する。
nuScenesデータセットの大規模な実験により、我々の手法でトレーニングされた検出器は、従来の最先端の手法でトレーニングされた検出器よりも、nuScenesバリデーションベンチマークで28.4$\%$mAPで大幅に優れていた。
関連論文リスト
- CMF-IoU: Multi-Stage Cross-Modal Fusion 3D Object Detection with IoU Joint Prediction [29.7092783661859]
カメラとLiDARセンサーに基づくマルチモーダル手法は、3D検出の分野で大きな注目を集めている。
CMF-IOUと呼ばれる多段階の相互融合3D検出フレームワークを導入し,3次元空間情報と2次元意味情報を整合させることの課題に対処する。
論文 参考訳(メタデータ) (2025-08-18T13:32:07Z) - Uplifting Range-View-based 3D Semantic Segmentation in Real-Time with Multi-Sensor Fusion [18.431017678057348]
Range-View(RV)ベースの3Dポイントクラウドセグメンテーションは、そのコンパクトなデータ形式のために広く採用されている。
しかし、RVベースの手法は、隠蔽された点に対して堅牢なセグメンテーションを提供するには不十分である。
我々は新しいLiDARとカメラレンジビューに基づく3Dポイントクラウドセマンティックセマンティックセマンティック手法(LaCRange)を提案する。
提案手法は,リアルタイム性に加えて,nuScenesベンチマークの最先端結果も実現している。
論文 参考訳(メタデータ) (2024-07-12T21:41:57Z) - Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene [22.297964850282177]
教師なし3次元検出のためのLiDAR-2D Self-paced Learning (LiSe)を提案する。
RGB画像は、正確な2Dローカライゼーションキューを提供するLiDARデータの貴重な補完となる。
本フレームワークでは,適応型サンプリングと弱いモデルアグリゲーション戦略を組み込んだ自己評価学習パイプラインを考案する。
論文 参考訳(メタデータ) (2024-07-11T14:58:49Z) - Improving Gaussian Splatting with Localized Points Management [52.009874685460694]
局所的点管理(LPM)は、点加算と幾何校正の両方を最大限に必要としながら、これらの誤り貢献ゾーンを特定することができる。
LPMは特定されたゾーンに点密度を適用し、これらの領域の前にある点の不透明度をリセットし、不適切な点を修正する新しい機会を生み出す。
特に、LPMは静的3DGSとダイナミックなSpaceTimeGSの両方を改善して、リアルタイム速度を維持しながら最先端のレンダリング品質を実現している。
論文 参考訳(メタデータ) (2024-06-06T16:55:07Z) - VirtualPainting: Addressing Sparsity with Virtual Points and
Distance-Aware Data Augmentation for 3D Object Detection [3.5259183508202976]
本稿では,カメラ画像を用いた仮想LiDAR点の生成を含む革新的なアプローチを提案する。
また、画像ベースセグメンテーションネットワークから得られる意味ラベルを用いて、これらの仮想点を強化する。
このアプローチは、様々な3Dフレームワークと2Dセマンティックセグメンテーションメソッドにシームレスに統合できる汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-26T18:03:05Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object
Detection [59.765645791588454]
最近導入されたRTS3Dは、深度監督のないオブジェクトの中間表現のための効率的な4次元特徴整合埋め込み空間を構築している。
本研究では, 内部領域で高密度サンプリングを行い, 内部領域でスパースサンプリングを行う非一様サンプリング方式を提案する。
提案手法は,ネットワークパラメータをほとんど含まないAP3dに対して2.57%の改善を実現している。
論文 参考訳(メタデータ) (2021-06-18T09:14:55Z) - Range Conditioned Dilated Convolutions for Scale Invariant 3D Object
Detection [41.59388513615775]
本稿では,LiDARデータをそのネイティブ表現(範囲画像)に直接処理する新しい3Dオブジェクト検出フレームワークを提案する。
2D畳み込みは、レンジ画像のコンパクト性から、シーンの高密度LiDARデータを効率的に処理することができる。
論文 参考訳(メタデータ) (2020-05-20T09:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。