論文の概要: Point-SRA: Self-Representation Alignment for 3D Representation Learning
- arxiv url: http://arxiv.org/abs/2601.01746v1
- Date: Mon, 05 Jan 2026 02:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.740343
- Title: Point-SRA: Self-Representation Alignment for 3D Representation Learning
- Title(参考訳): ポイントSRA:3次元表現学習のための自己表現アライメント
- Authors: Lintong Wei, Jian Lu, Haozhe Cheng, Jihua Zhu, Kaibing Zhang,
- Abstract要約: マスク付きオートエンコーダ(MAE)は3次元表現学習において支配的なパラダイムとなっている。
本稿では,自己蒸留と確率的モデリングにより表現を整列するPoint-SRAを提案する。
3Dオブジェクト検出では、PSRAは47.3%のAP@50を達成し、MaskPointを5.12%上回っている。
- 参考スコア(独自算出の注目度): 29.371022247951377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked autoencoders (MAE) have become a dominant paradigm in 3D representation learning, setting new performance benchmarks across various downstream tasks. Existing methods with fixed mask ratio neglect multi-level representational correlations and intrinsic geometric structures, while relying on point-wise reconstruction assumptions that conflict with the diversity of point cloud. To address these issues, we propose a 3D representation learning method, termed Point-SRA, which aligns representations through self-distillation and probabilistic modeling. Specifically, we assign different masking ratios to the MAE to capture complementary geometric and semantic information, while the MeanFlow Transformer (MFT) leverages cross-modal conditional embeddings to enable diverse probabilistic reconstruction. Our analysis further reveals that representations at different time steps in MFT also exhibit complementarity. Therefore, a Dual Self-Representation Alignment mechanism is proposed at both the MAE and MFT levels. Finally, we design a Flow-Conditioned Fine-Tuning Architecture to fully exploit the point cloud distribution learned via MeanFlow. Point-SRA outperforms Point-MAE by 5.37% on ScanObjectNN. On intracranial aneurysm segmentation, it reaches 96.07% mean IoU for arteries and 86.87% for aneurysms. For 3D object detection, Point-SRA achieves 47.3% AP@50, surpassing MaskPoint by 5.12%.
- Abstract(参考訳): Masked Autoencoders (MAE) は、3D表現学習において主要なパラダイムとなり、様々な下流タスクに新しいパフォーマンスベンチマークを設定している。
固定マスク比を持つ既存の方法は、点雲の多様性と矛盾する点分割仮定を頼りながら、多レベル表現相関や固有幾何学構造を無視する。
これらの課題に対処するために,自己蒸留と確率的モデリングにより表現を整合させる3次元表現学習手法であるPoint-SRAを提案する。
具体的には,ManFlow Transformer (MFT) は多種多様な確率的再構成を実現するために,モーダルな条件付き埋め込みを活用している。
解析の結果,MFTにおける時間ステップの異なる表現も相補性を示すことが明らかとなった。
したがって、MAEとMFTの両レベルで二重自己表現アライメント機構が提案される。
最後に、MeanFlowで学んだポイントクラウドの分散を完全に活用するために、Flow-Conditioned Fine-Tuning Architectureを設計する。
Point-SRAはPoint-MAEを5.37%上回っている。
頭蓋内動脈瘤は96.07%、動脈はIoU、動脈瘤は86.87%に達する。
3Dオブジェクト検出において、Point-SRAは47.3%のAP@50を達成し、MaskPointを5.12%上回っている。
関連論文リスト
- Asymmetric Dual Self-Distillation for 3D Self-Supervised Representation Learning [5.317624228510749]
本稿では,非対称な二重自己蒸留フレームワークであるAsymDSDを提案する。
AsymDSDはScanObjectNNの最先端結果(90.53%)を達成し、930kの形状で事前訓練された場合には93.72%に改善する。
論文 参考訳(メタデータ) (2025-06-26T19:17:10Z) - Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Masked Generative Extractor for Synergistic Representation and 3D Generation of Point Clouds [6.69660410213287]
我々は,3次元表現学習と生成学習を深く統合する利点を探るため,Point-MGEと呼ばれる革新的なフレームワークを提案する。
形状分類において、Point-MGEはModelNet40データセットで94.2%(+1.0%)、ScanObjectNNデータセットで92.9%(+5.5%)の精度を達成した。
また,非条件条件と条件条件条件条件の両方で,Point-MGEが高品質な3D形状を生成可能であることを確認した。
論文 参考訳(メタデータ) (2024-06-25T07:57:03Z) - MaskLRF: Self-supervised Pretraining via Masked Autoencoding of Local Reference Frames for Rotation-invariant 3D Point Set Analysis [1.19658449368018]
本稿では,3次元点集合解析のための回転不変な自己教師付き事前学習フレームワークを初めて開発する。
提案したアルゴリズムはMaskLRFと呼ばれ、3Dポイントのマスク付きオートエンコーディングにより回転不変かつ高度に一般化可能な潜在特徴を学習する。
そこで,MaskLRFは,非矛盾な向きを持つ3次元点集合の解析において,最先端の精度を実現していることを確認した。
論文 参考訳(メタデータ) (2024-03-01T00:42:49Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。