論文の概要: Triple Point Masking
- arxiv url: http://arxiv.org/abs/2409.17547v1
- Date: Thu, 26 Sep 2024 05:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 22:56:36.502200
- Title: Triple Point Masking
- Title(参考訳): 三点マスキング
- Authors: Jiaming Liu, Linghe Kong, Yue Wu, Maoguo Gong, Hao Li, Qiguang Miao, Wenping Ma, Can Qin,
- Abstract要約: 既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
- 参考スコア(独自算出の注目度): 49.39218611030084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing 3D mask learning methods encounter performance bottlenecks under limited data, and our objective is to overcome this limitation. In this paper, we introduce a triple point masking scheme, named TPM, which serves as a scalable framework for pre-training of masked autoencoders to achieve multi-mask learning for 3D point clouds. Specifically, we augment the baselines with two additional mask choices (i.e., medium mask and low mask) as our core insight is that the recovery process of an object can manifest in diverse ways. Previous high-masking schemes focus on capturing the global representation but lack the fine-grained recovery capability, so that the generated pre-trained weights tend to play a limited role in the fine-tuning process. With the support of the proposed TPM, available methods can exhibit more flexible and accurate completion capabilities, enabling the potential autoencoder in the pre-training stage to consider multiple representations of a single 3D object. In addition, an SVM-guided weight selection module is proposed to fill the encoder parameters for downstream networks with the optimal weight during the fine-tuning stage, maximizing linear accuracy and facilitating the acquisition of intricate representations for new objects. Extensive experiments show that the four baselines equipped with the proposed TPM achieve comprehensive performance improvements on various downstream tasks.
- Abstract(参考訳): 既存の3Dマスク学習手法では,データ制限下での性能ボトルネックに遭遇し,その限界を克服することが目的である。
本稿では,3次元点雲のマルチマスク学習を実現するために,マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして,TPMという3点マスキング方式を提案する。
具体的には,2つのマスク選択(中型マスクと低型マスク)でベースラインを増強する。
従来のハイマスキング方式は、グローバルな表現を捉えることに重点を置いていたが、微細な回復能力が欠如しているため、生成された事前学習重量は微調整プロセスにおいて限られた役割を果たす傾向にある。
提案したTPMのサポートにより、利用可能なメソッドはより柔軟で正確な補完能力を示し、事前学習段階における潜在的なオートエンコーダが単一の3Dオブジェクトの複数の表現を考慮できる。
さらに、SVM誘導重み選択モジュールは、微調整段階において、ダウンストリームネットワークのエンコーダパラメータを最適な重みで満たし、線形精度を最大化し、新しいオブジェクトの複雑な表現の取得を容易にする。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Fast and Efficient: Mask Neural Fields for 3D Scene Segmentation [47.08813064337934]
本稿では,新しい視点から3次元オープン語彙セグメンテーションを実現するMaskFieldを提案する。
MaskFieldは、マスクの特徴フィールドとクエリを定式化することによって、基礎モデルからマスクと意味的特徴の蒸留を分解する。
実験の結果,MaskFieldは従来の最先端手法を超越するだけでなく,極めて高速な収束を実現することがわかった。
論文 参考訳(メタデータ) (2024-07-01T12:07:26Z) - MaskLRF: Self-supervised Pretraining via Masked Autoencoding of Local Reference Frames for Rotation-invariant 3D Point Set Analysis [1.19658449368018]
本稿では,3次元点集合解析のための回転不変な自己教師付き事前学習フレームワークを初めて開発する。
提案したアルゴリズムはMaskLRFと呼ばれ、3Dポイントのマスク付きオートエンコーディングにより回転不変かつ高度に一般化可能な潜在特徴を学習する。
そこで,MaskLRFは,非矛盾な向きを持つ3次元点集合の解析において,最先端の精度を実現していることを確認した。
論文 参考訳(メタデータ) (2024-03-01T00:42:49Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - M$^3$CS: Multi-Target Masked Point Modeling with Learnable Codebook and
Siamese Decoders [19.68592678093725]
マスク付き点モデリングは、点雲の自己教師型事前学習の有望なスキームとなっている。
M$3$CSは上記の能力を持つモデルを可能にするために提案されている。
論文 参考訳(メタデータ) (2023-09-23T02:19:21Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。