論文の概要: DOS: Distilling Observable Softmaps of Zipfian Prototypes for Self-Supervised Point Representation
- arxiv url: http://arxiv.org/abs/2512.11465v1
- Date: Fri, 12 Dec 2025 11:07:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.740194
- Title: DOS: Distilling Observable Softmaps of Zipfian Prototypes for Self-Supervised Point Representation
- Title(参考訳): DOS:自己監督点表現のためのZipfianプロトタイプの可観測ソフトマップの蒸留
- Authors: Mohamed Abdelsamad, Michael Ulrich, Bin Yang, Miao Zhang, Yakov Miron, Abhinav Valada,
- Abstract要約: DOS(Distilling Observable Softmaps)は、意味的関連性ソフトマップを可観測点のみに自己拡張する新しいSSLフレームワークである。
DOSは、セマンティックセグメンテーションと3Dオブジェクト検出における最先端の手法より優れている。
以上の結果から,可観測点のソフトマップ蒸留は,ロバストな3次元表現を学習するためのスケーラブルで効果的なパラダイムを提供することが示された。
- 参考スコア(独自算出の注目度): 25.293422897925698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in self-supervised learning (SSL) have shown tremendous potential for learning 3D point cloud representations without human annotations. However, SSL for 3D point clouds still faces critical challenges due to irregular geometry, shortcut-prone reconstruction, and unbalanced semantics distribution. In this work, we propose DOS (Distilling Observable Softmaps), a novel SSL framework that self-distills semantic relevance softmaps only at observable (unmasked) points. This strategy prevents information leakage from masked regions and provides richer supervision than discrete token-to-prototype assignments. To address the challenge of unbalanced semantics in an unsupervised setting, we introduce Zipfian prototypes and incorporate them using a modified Sinkhorn-Knopp algorithm, Zipf-Sinkhorn, which enforces a power-law prior over prototype usage and modulates the sharpness of the target softmap during training. DOS outperforms current state-of-the-art methods on semantic segmentation and 3D object detection across multiple benchmarks, including nuScenes, Waymo, SemanticKITTI, ScanNet, and ScanNet200, without relying on extra data or annotations. Our results demonstrate that observable-point softmaps distillation offers a scalable and effective paradigm for learning robust 3D representations.
- Abstract(参考訳): 自己教師付き学習(SSL)の最近の進歩は、人間のアノテーションなしで3Dポイントのクラウド表現を学習する大きな可能性を示している。
しかし、3DポイントクラウドのSSLは、不規則な幾何学、ショートカット・プロン再構成、アンバランスなセマンティクスの分布のために、依然として重要な課題に直面している。
本研究では,意味的関連性ソフトマップを可観測点(非可観測点)でのみ自己定義する新しいSSLフレームワークであるDOS(Distilling Observable Softmaps)を提案する。
この戦略は、マスキングされた領域からの情報漏洩を防止し、離散トークンからプロトタイプへの割り当てよりもリッチな監視を提供する。
教師なし環境でのアンバランスなセマンティクスの課題に対処するため、我々はZipfianのプロトタイプを導入し、修正されたSinkhorn-Knoppアルゴリズム、Zipf-Sinkhornを用いてそれらを組み込む。
DOSは、追加のデータやアノテーションに頼ることなく、nuScenes、Waymo、SemanticKITTI、ScanNet200、ScanNet200を含む複数のベンチマークで、セマンティックセグメンテーションと3Dオブジェクト検出に関する現在の最先端の手法より優れている。
以上の結果から,可観測点のソフトマップ蒸留は,ロバストな3次元表現を学習するためのスケーラブルで効果的なパラダイムを提供することが示された。
関連論文リスト
- Masked Clustering Prediction for Unsupervised Point Cloud Pre-training [61.11226004056774]
MaskCluは、3Dポイントクラウド上でのViTの教師なし事前トレーニング手法である。
マスク付きポイントモデリングとクラスタリングベースの学習を統合している。
論文 参考訳(メタデータ) (2025-08-12T12:58:44Z) - Multi-Scale Neighborhood Occupancy Masked Autoencoder for Self-Supervised Learning in LiDAR Point Clouds [9.994719163112416]
Masked Autoencoders (MAE) は、視覚以降の自己教師型学習(SSL)において、大きな可能性を秘めている。
自動走行に使用されるLiDARの点雲は、3Dボリュームの大部分を空いているため、MAEにとって特に困難である。
本研究では,マスク付き占有再建を非マスクボクセルの近傍にのみ導入することで,上記の課題を克服する新しい近隣居住環境(NomaE)を提案する。
論文 参考訳(メタデータ) (2025-02-27T17:42:47Z) - LISNeRF Mapping: LiDAR-based Implicit Mapping via Semantic Neural Fields for Large-Scale 3D Scenes [2.822816116516042]
大規模セマンティックマッピングは、屋外の自律エージェントが計画やナビゲーションといった高度なタスクを遂行するために不可欠である。
本稿では,提案するLiDAR測度のみでの暗黙的表現による大規模3次元意味再構築手法を提案する。
論文 参考訳(メタデータ) (2023-11-04T03:55:38Z) - Neural Semantic Surface Maps [52.61017226479506]
本稿では,2つの属とゼロの形状の地図を自動計算する手法を提案する。
提案手法は,手動のアノテーションや3Dトレーニングデータ要求を排除し,意味的表面-表面マップを生成する。
論文 参考訳(メタデータ) (2023-09-09T16:21:56Z) - CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud
Semantic Segmentation [60.0893353960514]
疎アノテーションを用いた弱教師付きポイントクラウドセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では,地域マスキング(RegionMask)戦略とコンテキストマスキングトレーニング(CMT)手法の2つの部分からなるコンテキストポイントクラウドモデリング(CPCM)手法を提案する。
論文 参考訳(メタデータ) (2023-07-19T04:41:18Z) - PointDC:Unsupervised Semantic Segmentation of 3D Point Clouds via
Cross-modal Distillation and Super-Voxel Clustering [32.18716273358168]
我々は、ポイントクラウドの完全な教師なしセマンティックセマンティックセグメンテーションの最初の試みを行う。
本稿では,上記の問題に対処する2つのステップからなる新しいフレームワークであるPointDCを提案する。
PointDCは、従来の最先端の教師なし手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-18T12:58:21Z) - MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds [13.426810473131642]
Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Dense Supervision Propagation for Weakly Supervised Semantic Segmentation on 3D Point Clouds [59.63231842439687]
意味点クラウドセグメンテーションネットワークをトレーニングする。
同様の特徴を伝達し、2つのサンプルにまたがる勾配を再現するクロスサンプル機能再配置モジュールを提案する。
ラベルの10%と1%しか持たない弱教師付き手法では、完全教師付き手法と互換性のある結果が得られる。
論文 参考訳(メタデータ) (2021-07-23T14:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。