論文の概要: Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds
- arxiv url: http://arxiv.org/abs/2603.25165v1
- Date: Thu, 26 Mar 2026 08:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.184682
- Title: Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds
- Title(参考訳): 3次元シーン理解のための基礎モデルに向けて:ポイントクラウドのためのインスタンス対応自己監視学習
- Authors: Bin Yang, Mohamed Abdelsamad, Miao Zhang, Alexandru Paul Condurache,
- Abstract要約: PointINSは、幾何学的学習を通じてポイントクラウド表現を豊かにする、インスタンス指向の自己組織化フレームワークである。
PointINSは、屋内のインスタンスセグメンテーションで平均+3.5%のmAP改善、屋外のパン光学セグメンテーションで+4.1%のPQゲインを達成している。
- 参考スコア(独自算出の注目度): 53.82500407523346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in self-supervised learning (SSL) for point clouds have substantially improved 3D scene understanding without human annotations. Existing approaches emphasize semantic awareness by enforcing feature consistency across augmented views or by masked scene modeling. However, the resulting representations transfer poorly to instance localization, and often require full finetuning for strong performance. Instance awareness is a fundamental component of 3D perception, thus bridging this gap is crucial for progressing toward true 3D foundation models that support all downstream tasks on 3D data. In this work, we introduce PointINS, an instance-oriented self-supervised framework that enriches point cloud representations through geometry-aware learning. PointINS employs an orthogonal offset branch to jointly learn high-level semantic understanding and geometric reasoning, yielding instance awareness. We identify two consistent properties essential for robust instance localization and formulate them as complementary regularization strategies, Offset Distribution Regularization (ODR), which aligns predicted offsets with empirically observed geometric priors, and Spatial Clustering Regularization (SCR), which enforces local coherence by regularizing offsets with pseudo-instance masks. Through extensive experiments across five datasets, PointINS achieves on average +3.5% mAP improvement for indoor instance segmentation and +4.1% PQ gain for outdoor panoptic segmentation, paving the way for scalable 3D foundation models.
- Abstract(参考訳): ポイントクラウドにおける自己教師あり学習(SSL)の最近の進歩は、人間のアノテーションなしでの3Dシーン理解を大幅に改善した。
既存のアプローチは、拡張ビューにまたがる特徴一貫性を強制したり、マスキングシーンモデリングによってセマンティックな認識を強調する。
しかし、結果の表現はインスタンスのローカライゼーションにあまり依存せず、しばしば強いパフォーマンスのために完全な微調整を必要とする。
インスタンス認識は3D知覚の基本的な構成要素であり、このギャップを埋めることは、3Dデータ上のすべての下流タスクをサポートする真の3Dファンデーションモデルに向けて進む上で不可欠である。
本稿では,幾何学的学習を通じてポイントクラウド表現を充実させる,インスタンス指向の自己教師型フレームワークであるPointINSを紹介する。
PointINSは、高レベルの意味理解と幾何学的推論を共同で学習するために直交オフセットブランチを使用している。
我々は、ロバストなインスタンスローカライゼーションに不可欠な2つの一貫した特性を特定し、それらを相補的な正規化戦略として定式化し、予測されたオフセットを経験的に観察された幾何学的先行値と整列するオフセット分布正規化(ODR)と、擬似インスタンスマスクでオフセットを正則化することによって局所的コヒーレンスを強制する空間クラスタリング正規化(SCR)とを定式化する。
5つのデータセットにわたる広範な実験を通じて、PointINSは屋内のインスタンスセグメンテーションにおける平均+3.5% mAP改善と屋外のパン光学セグメンテーションにおける+4.1% PQゲインを達成し、スケーラブルな3Dファンデーションモデルへの道を開いた。
関連論文リスト
- Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis [51.37795317716487]
本稿では,パラメータの少ない事前学習モデルを微調整するAdaptive Point-Prompt Tuning (APPT)法を提案する。
局所幾何学を集約することで原点雲を点埋め込みに変換し、空間的特徴を捉える。
任意のモダリティのソース領域から3Dへの自己アテンションを校正するために,重みを点埋め込みモジュールと共有するプロンプトジェネレータを導入する。
論文 参考訳(メタデータ) (2025-08-30T06:02:21Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - S3PT: Scene Semantics and Structure Guided Clustering to Boost Self-Supervised Pre-Training for Autonomous Driving [12.406655155106424]
そこで本稿では,S3PTによるシーンセマンティクスと構造案内クラスタリングを提案する。
まず、セマンティックな分布一貫したクラスタリングを取り入れて、オートバイや動物のような稀なクラスをよりよく表現できるようにします。
第2に,広い背景領域から歩行者や交通標識などの小さな物体まで,不均衡で多様な物体の大きさを扱うために,一貫した空間クラスタリングを導入する。
第3に,シーンの幾何学的情報に基づいて学習を規則化するための深度誘導空間クラスタリングを提案する。
論文 参考訳(メタデータ) (2024-10-30T15:00:06Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。