論文の概要: Segment Any Point Cloud Sequences by Distilling Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2306.09347v2
- Date: Tue, 24 Oct 2023 09:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:25:28.023415
- Title: Segment Any Point Cloud Sequences by Distilling Vision Foundation Models
- Title(参考訳): ビジョンファウンデーションモデルによる任意のポイントクラウドシーケンスの分割
- Authors: Youquan Liu and Lingdong Kong and Jun Cen and Runnan Chen and Wenwei
Zhang and Liang Pan and Kai Chen and Ziwei Liu
- Abstract要約: Sealは、さまざまな自動車のポイントクラウドシーケンスをセグメント化するためのビジョンファウンデーションモデル(VFM)を利用するフレームワークである。
Sealはスケーラビリティ、一貫性、一般化性という3つの魅力的な特性を示している。
- 参考スコア(独自算出の注目度): 55.12618600523729
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in vision foundation models (VFMs) have opened up new
possibilities for versatile and efficient visual perception. In this work, we
introduce Seal, a novel framework that harnesses VFMs for segmenting diverse
automotive point cloud sequences. Seal exhibits three appealing properties: i)
Scalability: VFMs are directly distilled into point clouds, obviating the need
for annotations in either 2D or 3D during pretraining. ii) Consistency: Spatial
and temporal relationships are enforced at both the camera-to-LiDAR and
point-to-segment regularization stages, facilitating cross-modal representation
learning. iii) Generalizability: Seal enables knowledge transfer in an
off-the-shelf manner to downstream tasks involving diverse point clouds,
including those from real/synthetic, low/high-resolution, large/small-scale,
and clean/corrupted datasets. Extensive experiments conducted on eleven
different point cloud datasets showcase the effectiveness and superiority of
Seal. Notably, Seal achieves a remarkable 45.0% mIoU on nuScenes after linear
probing, surpassing random initialization by 36.9% mIoU and outperforming prior
arts by 6.1% mIoU. Moreover, Seal demonstrates significant performance gains
over existing methods across 20 different few-shot fine-tuning tasks on all
eleven tested point cloud datasets.
- Abstract(参考訳): 視覚基礎モデル(VFM)の最近の進歩は、多目的かつ効率的な視覚知覚の新しい可能性を開いた。
本稿では,vfmを多種多様な自動車用ポイントクラウドシーケンスのセグメンテーションに利用する新しいフレームワークである seal を紹介する。
sealには3つの魅力がある。
i) スケーラビリティ: VFMはポイントクラウドに直接蒸留され、事前トレーニング中に2Dまたは3Dのアノテーションが不要になる。
ii) 一貫性: 空間的および時間的関係は、カメラからライダーへの正規化段階とポイント・ツー・セグメンの正規化段階の両方において実施され、クロスモーダル表現学習が促進される。
三 総合可能性:シールは、実際の/合成、低解像度、大規模/小規模、クリーン/破損したデータセットを含む多様なポイントクラウドを含む下流タスクに、オフザシェルフ方式で知識伝達を可能にする。
11の異なるポイントクラウドデータセットで広範な実験が行われ、sealの有効性と優位性が示された。
特筆すべきは、アザラシは線形探索の後、無作為初期化を36.9%、先行芸術を6.1%上回り、無作為初期化を45.0%上回ったことである。
さらに、sealは、テスト済みの11のpoint cloudデータセットすべてにおいて、20の異なるマイナショット微調整タスクにわたる既存のメソッドよりも大きなパフォーマンス向上を示している。
関連論文リスト
- GS-PT: Exploiting 3D Gaussian Splatting for Comprehensive Point Cloud Understanding via Self-supervised Learning [15.559369116540097]
ポイントクラウドの自己教師型学習は、ラベルのない3Dデータを活用して、手動のアノテーションに頼ることなく意味のある表現を学習することを目的としている。
本稿では,3Dガウススプラッティング(3DGS)をポイントクラウドの自己教師型学習に初めて統合したGS-PTを提案する。
我々のパイプラインは、トランスフォーマーを自己教師付き事前学習のバックボーンとして利用し、3DGSによる新しいコントラスト学習タスクを導入している。
論文 参考訳(メタデータ) (2024-09-08T03:46:47Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - 3D Unsupervised Learning by Distilling 2D Open-Vocabulary Segmentation Models for Autonomous Driving [17.42913935045091]
2次元開語彙セグメンテーションモデルを用いた新しい3次元教師なしフレームワークUOVを提案する。
最初の段階では、2次元オープン語彙モデルの高品質なテキストと画像の特徴を革新的に統合する。
第2段階では、点雲と画像の間の空間マッピングを利用して擬似ラベルを生成する。
論文 参考訳(メタデータ) (2024-05-24T07:18:09Z) - Zero-shot Point Cloud Completion Via 2D Priors [52.72867922938023]
3次元点雲の完成は、部分的に観測された点雲から完全な形状を復元するように設計されている。
そこで本研究では, 観測された点群を対象とするゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T08:02:17Z) - Point Cloud Pre-training with Diffusion Models [62.12279263217138]
我々は、ポイントクラウド拡散事前学習(PointDif)と呼ばれる新しい事前学習手法を提案する。
PointDifは、分類、セグメンテーション、検出など、さまざまな下流タスクのために、さまざまな現実世界のデータセット間で大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-25T08:10:05Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Dual Adaptive Transformations for Weakly Supervised Point Cloud
Segmentation [78.6612285236938]
弱制御点雲分割のための新しいDATモデル(textbfDual textbfAdaptive textbfTransformations)を提案する。
我々は,大規模S3DISデータセットとScanNet-V2データセットの2つの人気バックボーンを用いたDATモデルの評価を行った。
論文 参考訳(メタデータ) (2022-07-19T05:43:14Z) - Efficient Urban-scale Point Clouds Segmentation with BEV Projection [0.0]
ほとんどのディープポイントクラウドモデルは、直接3Dポイントクラウド上で学習を行います。
本稿では,高密度の鳥眼視射影に3次元点雲を移すことを提案する。
論文 参考訳(メタデータ) (2021-09-19T06:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。