論文の概要: Better Call SAL: Towards Learning to Segment Anything in Lidar
- arxiv url: http://arxiv.org/abs/2403.13129v2
- Date: Thu, 25 Jul 2024 15:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:17:05.154629
- Title: Better Call SAL: Towards Learning to Segment Anything in Lidar
- Title(参考訳): よりよいコールSAL: ライダーであらゆるものをセグメンテーションする学習を目指す
- Authors: Aljoša Ošep, Tim Meinhardt, Francesco Ferroni, Neehar Peri, Deva Ramanan, Laura Leal-Taixé,
- Abstract要約: 本稿では,Lidar内の任意のオブジェクトをセグメント化,分類するためのテキストプロンプト可能なゼロショットモデルを提案する。
擬似ラベルを用いて2次元視覚基盤モデルを用いて3次元の3次元監督を無償で生成する。
我々のモデルは、クラスに依存しない点では91%、ゼロショットのLidar Panopticonでは54%である。
- 参考スコア(独自算出の注目度): 63.9984147657437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the SAL (Segment Anything in Lidar) method consisting of a text-promptable zero-shot model for segmenting and classifying any object in Lidar, and a pseudo-labeling engine that facilitates model training without manual supervision. While the established paradigm for Lidar Panoptic Segmentation (LPS) relies on manual supervision for a handful of object classes defined a priori, we utilize 2D vision foundation models to generate 3D supervision ``for free''. Our pseudo-labels consist of instance masks and corresponding CLIP tokens, which we lift to Lidar using calibrated multi-modal data. By training our model on these labels, we distill the 2D foundation models into our Lidar SAL model. Even without manual labels, our model achieves $91\%$ in terms of class-agnostic segmentation and $54\%$ in terms of zero-shot Lidar Panoptic Segmentation of the fully supervised state-of-the-art. Furthermore, we outperform several baselines that do not distill but only lift image features to 3D. More importantly, we demonstrate that SAL supports arbitrary class prompts, can be easily extended to new datasets, and shows significant potential to improve with increasing amounts of self-labeled data. Code and models are available at this $\href{https://github.com/nv-dvl/segment-anything-lidar}{URL}$.
- Abstract(参考訳): そこで本研究では,SAL(Segment Anything in Lidar)手法を提案する。SAL(Segment Anything in Lidar)手法は,テキストプロンプト可能なゼロショットモデルで,任意のオブジェクトの分類と分類を行う。
Lidar Panoptic Segmentation (LPS) の確立したパラダイムは、事前定義された少数のオブジェクトクラスの手動による監督に依存しているのに対し、我々は2次元視覚基盤モデルを使用して、3Dの監督「無償」を生成する。
擬似ラベルはインスタンスマスクと対応するCLIPトークンで構成されており、校正マルチモーダルデータを用いてLidarに持ち込む。
これらのラベルに基づいてモデルをトレーニングすることにより、2次元基礎モデルをLidar SALモデルに蒸留する。
手動ラベルがなくても、クラスに依存しないセグメンテーションでは911\%、完全に監督された最先端のゼロショットLidar Panoptic Segmentationでは54\%である。
さらに, 蒸留ではなく, リフト画像の特徴を3Dに反映したいくつかのベースラインの性能を向上する。
さらに重要なことは、SALが任意のクラスプロンプトをサポートし、新しいデータセットに容易に拡張できることを示し、自己ラベル付きデータの増加とともに改善する可能性を示している。
コードとモデルは、この$\href{https://github.com/nv-dvl/segment-anything-lidar}{URL}$で入手できる。
関連論文リスト
- Point-SAM: Promptable 3D Segmentation Model for Point Clouds [25.98791840584803]
本稿では,点雲に着目した3次元プロンプト可能なセグメンテーションモデル(Point-SAM)を提案する。
提案手法では,SAMを3次元領域に拡張するトランスフォーマー方式を用いる。
本モデルは,室内および屋外のベンチマークにおいて,最先端のモデルよりも優れる。
論文 参考訳(メタデータ) (2024-06-25T17:28:03Z) - Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without
Manual Labels [141.23836433191624]
現在の3Dシーンセグメンテーション手法は、手動で注釈付けされた3Dトレーニングデータセットに大きく依存している。
高品質な3Dセグメンテーションマスクを生成するクラス非依存の3Dシーンセグメンテーション法であるSegment3Dを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:57:11Z) - Beyond the Label Itself: Latent Labels Enhance Semi-supervised Point
Cloud Panoptic Segmentation [46.01433705072047]
表示ラベルの裏側には,LiDARと画像データに埋め込まれた2種類の潜伏ラベルが存在する。
我々は、より信頼性の高いトレーニング用サンプルを拡張できる新しい拡張 Cylinder-Mix を提案する。
また、インスタンスの位置と規模に関する情報を学習し、融合するためのインスタンス位置スケール学習(IPSL)モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-13T15:56:24Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for
Autonomous Driving [34.119642131912485]
より巧妙なフレームワークであるLiDAR誘導弱監視インスタンス(LWSIS)を提示する。
LWSISは市販の3Dデータ、すなわちポイントクラウドと3Dボックスを2Dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手段として使用している。
我々のLWSISは、訓練中のマルチモーダルデータの補完情報を利用するだけでなく、密集した2Dマスクのコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-12-07T08:08:01Z) - SuperLine3D: Self-supervised Line Segmentation and Description for LiDAR
Point Cloud [35.16632339908634]
本稿では,LiDAR 点クラウドにおける3次元線に対する最初の学習的特徴分割と記述モデルを提案する。
モデルでは任意のスケールの摂動の下で線を抽出し,共有EdgeConvエンコーダ層を用いて2つのセグメンテーションとディスクリプタヘッドを共同でトレーニングする。
実験により, ラインベース登録法は最先端のポイントベース手法と高い競争力を持つことが示された。
論文 参考訳(メタデータ) (2022-08-03T09:06:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。