論文の概要: Exploring Semantic Masked Autoencoder for Self-supervised Point Cloud Understanding
- arxiv url: http://arxiv.org/abs/2506.21957v1
- Date: Fri, 27 Jun 2025 06:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.112433
- Title: Exploring Semantic Masked Autoencoder for Self-supervised Point Cloud Understanding
- Title(参考訳): 自己教師型ポイントクラウド理解のための意味的マスクオートエンコーダの探索
- Authors: Yixin Zha, Chuxin Wang, Wenfei Yang, Tianzhu Zhang,
- Abstract要約: マスケプポイントモデリングに基づく手法は、最近、様々な下流タスクで顕著な性能を示した。
本稿では,プロトタイプベースのコンポーネントセマンティック・モデリング・モジュールと,コンポーネントセマンティック・エンハンスド・マスキング・ストラテジーを組み合わせたセマンティック・マスク・オートエンコーダを提案する。
- 参考スコア(独自算出の注目度): 31.585380521480868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point cloud understanding aims to acquire robust and general feature representations from unlabeled data. Masked point modeling-based methods have recently shown significant performance across various downstream tasks. These pre-training methods rely on random masking strategies to establish the perception of point clouds by restoring corrupted point cloud inputs, which leads to the failure of capturing reasonable semantic relationships by the self-supervised models. To address this issue, we propose Semantic Masked Autoencoder, which comprises two main components: a prototype-based component semantic modeling module and a component semantic-enhanced masking strategy. Specifically, in the component semantic modeling module, we design a component semantic guidance mechanism to direct a set of learnable prototypes in capturing the semantics of different components from objects. Leveraging these prototypes, we develop a component semantic-enhanced masking strategy that addresses the limitations of random masking in effectively covering complete component structures. Furthermore, we introduce a component semantic-enhanced prompt-tuning strategy, which further leverages these prototypes to improve the performance of pre-trained models in downstream tasks. Extensive experiments conducted on datasets such as ScanObjectNN, ModelNet40, and ShapeNetPart demonstrate the effectiveness of our proposed modules.
- Abstract(参考訳): ポイントクラウド理解は、ラベルのないデータから堅牢で一般的な特徴表現を取得することを目的としている。
マスケプポイントモデリングに基づく手法は、最近、様々な下流タスクで顕著な性能を示した。
これらの事前学習方法は、腐敗した点雲の入力を復元することで点雲の知覚を確立するためのランダムなマスキング戦略に依存しており、自己教師付きモデルによる合理的な意味関係の獲得に失敗する。
この問題に対処するために,プロトタイプベースのコンポーネントセマンティックモデリングモジュールとコンポーネントセマンティックエンハンスドマスキング戦略の2つの主要コンポーネントからなるセマンティックマスク付きオートエンコーダを提案する。
具体的には、コンポーネントセマンティックモデリングモジュールにおいて、オブジェクトから異なるコンポーネントのセマンティクスをキャプチャする学習可能なプロトタイプセットを指示するコンポーネントセマンティクスガイダンス機構を設計する。
これらのプロトタイプを活用することで、完全コンポーネント構造を効果的にカバーするランダムマスキングの限界に対処する、コンポーネントセマンティック・エンハンスド・マスキング戦略を開発する。
さらに、これらのプロトタイプを活用して、下流タスクにおける事前学習モデルの性能を向上させるコンポーネント意味強化プロンプトチューニング戦略を導入する。
ScanObjectNN、ModelNet40、ShapeNetPartなどのデータセットで実施された大規模な実験は、提案モジュールの有効性を実証する。
関連論文リスト
- Decomposing and Editing Predictions by Modeling Model Computation [75.37535202884463]
コンポーネントモデリングというタスクを導入します。
コンポーネントモデリングの目標は、MLモデルの予測をコンポーネントの観点から分解することだ。
コンポーネント属性を推定するスケーラブルなアルゴリズムであるCOARを提案する。
論文 参考訳(メタデータ) (2024-04-17T16:28:08Z) - ProtoP-OD: Explainable Object Detection with Prototypical Parts [0.0]
本稿では、原型的局所特徴を構築し、オブジェクト検出に使用するトランスフォーマーの検出拡張を提案する。
提案した拡張は、プロトタイプアクティベーションの離散化表現を演算するボトルネックモジュール、プロトタイプネックで構成されている。
論文 参考訳(メタデータ) (2024-02-29T13:25:15Z) - Neural Language of Thought Models [18.930227757853313]
我々は、LoTHにインスパイアされた表現と生成の教師なし学習のための新しいアプローチであるNeural Language of Thought Model (NLoTM)を紹介する。
NLoTMは,(1)オブジェクトとその特性に整合した階層的かつ構成可能な離散表現を学習するSemantic Vector-Quantized Variational Autoencoder,(2)意味概念トークンを合成的に生成する自動回帰変換器であるAutoregressive LoT Prior,の2つの重要なコンポーネントから構成される。
我々は、NLoTMを複数の2次元および3次元画像データセット上で評価し、下流タスクにおける優れた性能、分布外一般化、画像生成を示す。
論文 参考訳(メタデータ) (2024-02-02T08:13:18Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - LPMNet: Latent Part Modification and Generation for 3D Point Clouds [3.04585143845864]
本稿では,意味的部分と大域的形状の両方の生成と修正を処理できる単一エンドツーエンドオートエンコーダモデルを提案する。
提案手法は,3次元点雲モデル間の部分交換と異なる部分による合成をサポートし,遅延表現を直接編集して新しいモデルを生成する。
論文 参考訳(メタデータ) (2020-08-08T17:24:37Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。