論文の概要: Asymmetric Dual Self-Distillation for 3D Self-Supervised Representation Learning
- arxiv url: http://arxiv.org/abs/2506.21724v1
- Date: Thu, 26 Jun 2025 19:17:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.987906
- Title: Asymmetric Dual Self-Distillation for 3D Self-Supervised Representation Learning
- Title(参考訳): 3次元自己スーパービジョン表現学習のための非対称デュアル自己蒸留法
- Authors: Remco F. Leijenaar, Hamidreza Kasaei,
- Abstract要約: 本稿では,非対称な二重自己蒸留フレームワークであるAsymDSDを提案する。
AsymDSDはScanObjectNNの最先端結果(90.53%)を達成し、930kの形状で事前訓練された場合には93.72%に改善する。
- 参考スコア(独自算出の注目度): 5.317624228510749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning semantically meaningful representations from unstructured 3D point clouds remains a central challenge in computer vision, especially in the absence of large-scale labeled datasets. While masked point modeling (MPM) is widely used in self-supervised 3D learning, its reconstruction-based objective can limit its ability to capture high-level semantics. We propose AsymDSD, an Asymmetric Dual Self-Distillation framework that unifies masked modeling and invariance learning through prediction in the latent space rather than the input space. AsymDSD builds on a joint embedding architecture and introduces several key design choices: an efficient asymmetric setup, disabling attention between masked queries to prevent shape leakage, multi-mask sampling, and a point cloud adaptation of multi-crop. AsymDSD achieves state-of-the-art results on ScanObjectNN (90.53%) and further improves to 93.72% when pretrained on 930k shapes, surpassing prior methods.
- Abstract(参考訳): 構造化されていない3Dポイントクラウドから意味論的に意味のある表現を学ぶことは、特に大規模ラベル付きデータセットが存在しない場合、コンピュータビジョンにおいて中心的な課題である。
マスク付きポイントモデリング(MPM)は自己教師付き3次元学習において広く用いられているが、その再構成に基づく目的は、高いレベルのセマンティクスをキャプチャする能力を制限することができる。
本稿では,非対称な二重自己蒸留フレームワークであるAsymDSDを提案する。
AsymDSDは、結合埋め込みアーキテクチャの上に構築され、効率的な非対称なセットアップ、シェイプリークを防ぐためのマスク付きクエリ間の注意の無効化、マルチマスクサンプリング、マルチクロップのポイントクラウド適応など、いくつかの重要な設計選択を導入している。
AsymDSD は ScanObjectNN (90.53%) の最先端の結果を達成し、930k の形状で事前訓練された場合には93.72% に改善され、以前の方法を上回る。
関連論文リスト
- MDHA: Multi-Scale Deformable Transformer with Hybrid Anchors for Multi-View 3D Object Detection [4.180333673098102]
MDHAは3Dオブジェクト検出のための新しいスパースクエリベースのフレームワークである。
マルチビュー・マルチスケール画像入力からのハイブリッドアンカーを用いた適応型3D出力の提案を行う。
46.4%のmAPと55.0%のNDSをResNet101バックボーンで達成している。
論文 参考訳(メタデータ) (2024-06-25T15:46:39Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。