論文の概要: Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders
- arxiv url: http://arxiv.org/abs/2312.10726v1
- Date: Sun, 17 Dec 2023 14:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:43:35.308117
- Title: Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders
- Title(参考訳): 点特徴強調マスクオートエンコーダによるコンパクト3次元表現に向けて
- Authors: Yaohua Zha, Huizhen Ji, Jinmin Li, Rongsheng Li, Tao Dai, Bin Chen,
Zhi Wang, Shu-Tao Xia
- Abstract要約: 本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
- 参考スコア(独自算出の注目度): 52.66195794216989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning 3D representation plays a critical role in masked autoencoder (MAE)
based pre-training methods for point cloud, including single-modal and
cross-modal based MAE. Specifically, although cross-modal MAE methods learn
strong 3D representations via the auxiliary of other modal knowledge, they
often suffer from heavy computational burdens and heavily rely on massive
cross-modal data pairs that are often unavailable, which hinders their
applications in practice. Instead, single-modal methods with solely point
clouds as input are preferred in real applications due to their simplicity and
efficiency. However, such methods easily suffer from limited 3D representations
with global random mask input. To learn compact 3D representations, we propose
a simple yet effective Point Feature Enhancement Masked Autoencoders
(Point-FEMAE), which mainly consists of a global branch and a local branch to
capture latent semantic features. Specifically, to learn more compact features,
a share-parameter Transformer encoder is introduced to extract point features
from the global and local unmasked patches obtained by global random and local
block mask strategies, followed by a specific decoder to reconstruct.
Meanwhile, to further enhance features in the local branch, we propose a Local
Enhancement Module with local patch convolution to perceive fine-grained local
context at larger scales. Our method significantly improves the pre-training
efficiency compared to cross-modal alternatives, and extensive downstream
experiments underscore the state-of-the-art effectiveness, particularly
outperforming our baseline (Point-MAE) by 5.16%, 5.00%, and 5.04% in three
variants of ScanObjectNN, respectively. The code is available at
https://github.com/zyh16143998882/AAAI24-PointFEMAE.
- Abstract(参考訳): 3d表現の学習は、シングルモーダルおよびクロスモーダルベースのmaeを含むポイントクラウドのためのマスクオートエンコーダ(mae)ベースの事前学習方法において重要な役割を果たす。
特に、クロスモーダルMAE法は、他のモーダル知識の補助を通じて強力な3次元表現を学習するが、しばしば計算上の重荷に悩まされ、しばしば利用できない大規模なクロスモーダルデータペアに大きく依存する。
代わりに、クラウドを入力としてのみポイントするシングルモーダルメソッドは、その単純さと効率性のため、実際のアプリケーションでは好まれる。
しかし、このような方法は、グローバルなランダムマスク入力を伴う限られた3次元表現に容易に悩まされる。
コンパクトな3d表現を学習するために,グローバルブランチとローカルブランチを主とし,潜在意味的特徴をキャプチャする簡易かつ効果的な点特徴強調マスク付きオートエンコーダ(point-femae)を提案する。
特に、よりコンパクトな特徴を学ぶために、グローバルランダムおよびローカルブロックマスク戦略によって得られたグローバルおよびローカルアンマストパッチからポイント特徴を抽出するために共有パラメータ変換エンコーダを導入し、次に特定のデコーダを再構築する。
一方,局所ブランチの機能をさらに強化するために,局所パッチ畳み込みを伴う局所拡張モジュールを提案し,より大規模に細粒度の局所コンテキストを知覚する。
提案手法は, クロスモーダルな代替品に比べてトレーニング前の効率を著しく向上させ, ダウンストリーム実験により, 3種類のScanObjectNNのベースライン(Point-MAE)を5.16%, 5.00%, 5.04%で上回った。
コードはhttps://github.com/zyh16143998882/AAAI24-PointFEMAEで公開されている。
関連論文リスト
- Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - MaskLRF: Self-supervised Pretraining via Masked Autoencoding of Local Reference Frames for Rotation-invariant 3D Point Set Analysis [1.19658449368018]
本稿では,3次元点集合解析のための回転不変な自己教師付き事前学習フレームワークを初めて開発する。
提案したアルゴリズムはMaskLRFと呼ばれ、3Dポイントのマスク付きオートエンコーディングにより回転不変かつ高度に一般化可能な潜在特徴を学習する。
そこで,MaskLRFは,非矛盾な向きを持つ3次元点集合の解析において,最先端の精度を実現していることを確認した。
論文 参考訳(メタデータ) (2024-03-01T00:42:49Z) - PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。
本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。
我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文 参考訳(メタデータ) (2023-03-14T17:58:03Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - DH3D: Deep Hierarchical 3D Descriptors for Robust Large-Scale 6DoF
Relocalization [56.15308829924527]
生の3D点から直接3次元特徴の検出と記述を共同で学習するシームズネットワークを提案する。
3次元キーポイントを検出するために,局所的な記述子の識別性を教師なしで予測する。
各種ベンチマーク実験により,本手法はグローバルポイントクラウド検索とローカルポイントクラウド登録の両面で競合する結果が得られた。
論文 参考訳(メタデータ) (2020-07-17T20:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。