論文の概要: VESPA: Towards un(Human)supervised Open-World Pointcloud Labeling for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2507.20397v1
- Date: Sun, 27 Jul 2025 19:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.562161
- Title: VESPA: Towards un(Human)supervised Open-World Pointcloud Labeling for Autonomous Driving
- Title(参考訳): VESPA: 自動運転のためのun(Human)管理されたオープンワールドポイントクラウドラベリングを目指して
- Authors: Levente Tempfli, Esteban Rivera, Markus Lienkamp,
- Abstract要約: 本稿では,LiDARの幾何学的精度をカメラ画像のセマンティック・リッチネスと融合させるマルチモーダル・オートラベリング・パイプラインであるVESPAを紹介する。
VESPAは、新しいカテゴリの発見をサポートし、地味なアノテーションやHDマップを必要とせず、高品質な3D擬似ラベルを生成する。
Nuscenesデータセットでは、VESPAはオブジェクト発見に52.95%、マルチクラスオブジェクト検出に46.54%のAPを達成している。
- 参考スコア(独自算出の注目度): 1.623951368574041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data collection for autonomous driving is rapidly accelerating, but manual annotation, especially for 3D labels, remains a major bottleneck due to its high cost and labor intensity. Autolabeling has emerged as a scalable alternative, allowing the generation of labels for point clouds with minimal human intervention. While LiDAR-based autolabeling methods leverage geometric information, they struggle with inherent limitations of lidar data, such as sparsity, occlusions, and incomplete object observations. Furthermore, these methods typically operate in a class-agnostic manner, offering limited semantic granularity. To address these challenges, we introduce VESPA, a multimodal autolabeling pipeline that fuses the geometric precision of LiDAR with the semantic richness of camera images. Our approach leverages vision-language models (VLMs) to enable open-vocabulary object labeling and to refine detection quality directly in the point cloud domain. VESPA supports the discovery of novel categories and produces high-quality 3D pseudolabels without requiring ground-truth annotations or HD maps. On Nuscenes dataset, VESPA achieves an AP of 52.95% for object discovery and up to 46.54% for multiclass object detection, demonstrating strong performance in scalable 3D scene understanding. Code will be available upon acceptance.
- Abstract(参考訳): 自動運転のためのデータ収集は急速に加速しているが、特に3Dラベルのための手動アノテーションは、コストと労働力の強さのために大きなボトルネックとなっている。
Autolabelingはスケーラブルな代替手段として登場し、人間の介入を最小限にしたポイントクラウド用のラベルの生成を可能にした。
LiDARに基づく自動ラベリング手法は幾何情報を利用するが、空間性、閉塞性、不完全な物体観察などのライダーデータ固有の制限に悩まされる。
さらに、これらのメソッドは通常、クラスに依存しない方法で動作し、限定的なセマンティックな粒度を提供する。
これらの課題に対処するために、カメラ画像のセマンティック・リッチネスとLiDARの幾何学的精度を融合させるマルチモーダル・オートラベリング・パイプラインであるVESPAを導入する。
提案手法では,視覚言語モデル(VLM)を活用して,オープン語彙オブジェクトラベリングを実現し,ポイントクラウド領域における検出品質を直接改善する。
VESPAは、新しいカテゴリの発見をサポートし、地味なアノテーションやHDマップを必要とせず、高品質な3D擬似ラベルを生成する。
Nuscenesデータセットでは、VESPAはオブジェクト発見に52.95%、マルチクラスオブジェクト検出に46.54%のAPを達成し、スケーラブルな3Dシーン理解において強力なパフォーマンスを示している。
コードは受理後利用可能になる。
関連論文リスト
- Vision-Language Guidance for LiDAR-based Unsupervised 3D Object Detection [16.09503890891102]
我々は,LiDAR点雲のみで動作する教師なし3次元検出手法を提案する。
我々は、クラスタリング、トラッキング、ボックステキスト、ラベルリファインメントなど、LiDARポイントクラウドの固有のCLI時間知識を活用している。
提案手法はオープンデータセット上での最先端の非教師なし3Dオブジェクト検出器よりも優れている。
論文 参考訳(メタデータ) (2024-08-07T14:14:53Z) - VRSO: Visual-Centric Reconstruction for Static Object Annotation [21.70421057949981]
本稿では静的オブジェクトアノテーションのための視覚中心型アプローチであるVRSOを紹介する。
VRSOは低コスト、高効率、高品質である。
カメライメージのみを入力として、3D空間の静的オブジェクトを復元する。
論文 参考訳(メタデータ) (2024-03-22T08:16:59Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D
Object Detection [59.1417156002086]
MixSupは、大量の安価な粗いラベルと、Mixed-fine Supervisionの限られた数の正確なラベルを同時に活用する、より実用的なパラダイムである。
MixSupは、安価なクラスタアノテーションと10%のボックスアノテーションを使用して、完全な教師付きパフォーマンスの97.31%を達成している。
論文 参考訳(メタデータ) (2024-01-29T17:05:19Z) - Unsupervised 3D Perception with 2D Vision-Language Distillation for
Autonomous Driving [39.70689418558153]
本研究では,3次元ラベルを使わずに,オープンなカテゴリのモデルにアモーダルな3次元境界ボックスとトラックレットを生成できるマルチモーダル自動ラベルパイプラインを提案する。
私たちのパイプラインは、ポイントクラウドシーケンスに固有のモーションキューと、利用可能な2Dイメージテキストペアを組み合わせて、すべてのトラフィック参加者を特定し、追跡します。
論文 参考訳(メタデータ) (2023-09-25T19:33:52Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - UpCycling: Semi-supervised 3D Object Detection without Sharing Raw-level
Unlabeled Scenes [7.32610370107512]
UpCyclingは、3Dオブジェクト検出のための新しいSSLフレームワークである。
F-GT(F-GT)と回転(F-RoT)のハイブリッド擬似ラベルを導入する。
UpCyclingは、生のポイントシーンを利用する最先端のSSLメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-22T02:04:09Z) - LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。
本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。
提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文 参考訳(メタデータ) (2022-10-14T19:13:36Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z) - Exploring Diversity-based Active Learning for 3D Object Detection in Autonomous Driving [45.405303803618]
多様性に基づくアクティブラーニング(AL)を,アノテーションの負担を軽減するための潜在的解決策として検討する。
選択したサンプルの空間的・時間的多様性を強制する新しい取得関数を提案する。
提案手法がnuScenesデータセットに与える影響を実証し,既存のAL戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-05-16T14:21:30Z) - Unsupervised Object Detection with LiDAR Clues [70.73881791310495]
本稿では,LiDARの手がかりを用いた非教師対象検出のための最初の実用的手法を提案する。
提案手法では,まず3次元点雲に基づく候補オブジェクトセグメントを生成する。
そして、セグメントラベルを割り当て、セグメントラベルネットワークを訓練する反復的なセグメントラベル処理を行う。
ラベル付けプロセスは、長い尾とオープンエンドの分布の問題を軽減するために慎重に設計されている。
論文 参考訳(メタデータ) (2020-11-25T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。