論文の概要: Multi-modal NeRF Self-Supervision for LiDAR Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2411.02969v1
- Date: Tue, 05 Nov 2024 10:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:58:57.438096
- Title: Multi-modal NeRF Self-Supervision for LiDAR Semantic Segmentation
- Title(参考訳): LiDARセマンティックセグメンテーションのためのマルチモーダルNeRFセルフスーパービジョン
- Authors: Xavier Timoneda, Markus Herb, Fabian Duerr, Daniel Goehring, Fisher Yu,
- Abstract要約: LiDARセマンティックは、各LiDARポイントをセマンティックラベルに関連付けることで、自律運転知覚の基本的なタスクである。
本稿では,カメラ画像からの知識の抽出とともに,ラベルのないLiDAR点雲を利用するセミ・スーパーバイザード・ラーニング・セットアップを提案する。
- 参考スコア(独自算出の注目度): 24.5316699425354
- License:
- Abstract: LiDAR Semantic Segmentation is a fundamental task in autonomous driving perception consisting of associating each LiDAR point to a semantic label. Fully-supervised models have widely tackled this task, but they require labels for each scan, which either limits their domain or requires impractical amounts of expensive annotations. Camera images, which are generally recorded alongside LiDAR pointclouds, can be processed by the widely available 2D foundation models, which are generic and dataset-agnostic. However, distilling knowledge from 2D data to improve LiDAR perception raises domain adaptation challenges. For example, the classical perspective projection suffers from the parallax effect produced by the position shift between both sensors at their respective capture times. We propose a Semi-Supervised Learning setup to leverage unlabeled LiDAR pointclouds alongside distilled knowledge from the camera images. To self-supervise our model on the unlabeled scans, we add an auxiliary NeRF head and cast rays from the camera viewpoint over the unlabeled voxel features. The NeRF head predicts densities and semantic logits at each sampled ray location which are used for rendering pixel semantics. Concurrently, we query the Segment-Anything (SAM) foundation model with the camera image to generate a set of unlabeled generic masks. We fuse the masks with the rendered pixel semantics from LiDAR to produce pseudo-labels that supervise the pixel predictions. During inference, we drop the NeRF head and run our model with only LiDAR. We show the effectiveness of our approach in three public LiDAR Semantic Segmentation benchmarks: nuScenes, SemanticKITTI and ScribbleKITTI.
- Abstract(参考訳): LiDARセマンティックセグメンテーションは、各LiDARポイントをセマンティックラベルに関連付けることで、自律運転知覚の基本的なタスクである。
完全な教師付きモデルは、このタスクに広く取り組みましたが、各スキャンにラベルが必要です。
一般的にLiDARポイントクラウドと並行して記録されるカメライメージは、汎用的でデータセットに依存しない、広く利用可能な2Dファンデーションモデルによって処理される。
しかし、LiDAR知覚を改善するために2Dデータから知識を抽出することは、ドメイン適応の課題を提起する。
例えば、古典的な視点投影は、それぞれの捕獲時間における両方のセンサーの位置シフトによって生じるパララックス効果に悩まされる。
本稿では,カメラ画像からの知識の抽出とともに,ラベルのないLiDAR点雲を利用するセミ・スーパーバイザード・ラーニング・セットアップを提案する。
ラベルなしのスキャンでモデルを自己監督するために、補助的なNeRFヘッドと、ラベルなしのボクセル特徴に対するカメラ視点からの光を付加する。
NeRFヘッドは、画素セマンティクスのレンダリングに使用されるサンプル線位置毎に密度とセマンティクスロジットを予測する。
同時に、Segment-Anything (SAM) ファンデーションモデルにカメライメージを照会し、ラベルのないジェネリックマスクのセットを生成する。
マスクをLiDARのレンダリングされたピクセルセマンティクスと融合させて擬似ラベルを生成し、画素予測を監督する。
推論中は、NeRFヘッドを落とし、LiDARだけでモデルを実行します。
提案手法の有効性を, nuScenes, SemanticKITTI, ScribbleKITTIの3つの公開LiDARセマンティックセグメンテーションベンチマークで示す。
関連論文リスト
- Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。
未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。
我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T08:46:29Z) - MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D
Object Detection [59.1417156002086]
MixSupは、大量の安価な粗いラベルと、Mixed-fine Supervisionの限られた数の正確なラベルを同時に活用する、より実用的なパラダイムである。
MixSupは、安価なクラスタアノテーションと10%のボックスアノテーションを使用して、完全な教師付きパフォーマンスの97.31%を達成している。
論文 参考訳(メタデータ) (2024-01-29T17:05:19Z) - Beyond the Label Itself: Latent Labels Enhance Semi-supervised Point
Cloud Panoptic Segmentation [46.01433705072047]
表示ラベルの裏側には,LiDARと画像データに埋め込まれた2種類の潜伏ラベルが存在する。
我々は、より信頼性の高いトレーニング用サンプルを拡張できる新しい拡張 Cylinder-Mix を提案する。
また、インスタンスの位置と規模に関する情報を学習し、融合するためのインスタンス位置スケール学習(IPSL)モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-13T15:56:24Z) - LiDAR-UDA: Self-ensembling Through Time for Unsupervised LiDAR Domain
Adaptation [22.206488779765234]
LiDARセグメンテーションのための新しい2段階自己学習型Unsupervised Domain Adaptation (UDA) 手法であるLiDAR-UDAを紹介する。
本稿では,センサの誤差を低減し,擬似ラベル品質を向上させる2つの手法を提案する。
提案手法をいくつかの公開LiDARデータセット上で評価し,最先端の手法を平均3.9%以上のmIoUで上回っていることを示す。
論文 参考訳(メタデータ) (2023-09-24T02:02:00Z) - Semantics-aware LiDAR-Only Pseudo Point Cloud Generation for 3D Object
Detection [0.7234862895932991]
近年の進歩は擬似LiDAR、すなわち合成高密度点雲を導入し、カメラなどの追加のモダリティを使って3Dオブジェクト検出を強化している。
我々は,LiDARセンサとシーンセマンティクスに頼って,密度の高い擬似点雲で生スキャンを増強する,新しいLiDAR専用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-16T09:18:47Z) - LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and
Semantic-Aware Alignment [63.83894701779067]
我々は,最初のLiDAR-Camera Panoptic NetworkであるLCPSを提案する。
提案手法では,LiDAR-Camera融合を3段階に分けて行う。
我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。
論文 参考訳(メタデータ) (2023-08-03T10:57:58Z) - Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。
基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。
提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文 参考訳(メタデータ) (2022-09-16T07:59:04Z) - Self-Supervised Person Detection in 2D Range Data using a Calibrated
Camera [83.31666463259849]
2次元LiDARに基づく人検出器のトレーニングラベル(擬似ラベル)を自動生成する手法を提案する。
擬似ラベルで訓練または微調整された自己監視検出器が,手動アノテーションを用いて訓練された検出器を上回っていることを示した。
私達の方法は付加的な分類の努力なしで配置の間に人の探知器を改善する有効な方法です。
論文 参考訳(メタデータ) (2020-12-16T12:10:04Z) - Unsupervised Object Detection with LiDAR Clues [70.73881791310495]
本稿では,LiDARの手がかりを用いた非教師対象検出のための最初の実用的手法を提案する。
提案手法では,まず3次元点雲に基づく候補オブジェクトセグメントを生成する。
そして、セグメントラベルを割り当て、セグメントラベルネットワークを訓練する反復的なセグメントラベル処理を行う。
ラベル付けプロセスは、長い尾とオープンエンドの分布の問題を軽減するために慎重に設計されている。
論文 参考訳(メタデータ) (2020-11-25T18:59:54Z) - Complete & Label: A Domain Adaptation Approach to Semantic Segmentation
of LiDAR Point Clouds [49.47017280475232]
3次元点雲のセマンティックラベリングにおける教師なし領域適応問題について検討する。
セグメンテーションネットワークに渡す前に、基盤となる表面を復元するためにComplete と Label のアプローチを採用する。
回収された3D表面は標準領域として機能し、そこからセマンティックラベルが異なるLiDARセンサー間で転送される。
論文 参考訳(メタデータ) (2020-07-16T17:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。