論文の概要: MaskLRF: Self-supervised Pretraining via Masked Autoencoding of Local Reference Frames for Rotation-invariant 3D Point Set Analysis
- arxiv url: http://arxiv.org/abs/2403.00206v2
- Date: Wed, 22 May 2024 03:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 06:19:24.094118
- Title: MaskLRF: Self-supervised Pretraining via Masked Autoencoding of Local Reference Frames for Rotation-invariant 3D Point Set Analysis
- Title(参考訳): MaskLRF:回転不変3次元点解析のための局所参照フレームの自動符号化による自己教師付き事前学習
- Authors: Takahiko Furuya,
- Abstract要約: 本稿では,3次元点集合解析のための回転不変な自己教師付き事前学習フレームワークを初めて開発する。
提案したアルゴリズムはMaskLRFと呼ばれ、3Dポイントのマスク付きオートエンコーディングにより回転不変かつ高度に一般化可能な潜在特徴を学習する。
そこで,MaskLRFは,非矛盾な向きを持つ3次元点集合の解析において,最先端の精度を実現していることを確認した。
- 参考スコア(独自算出の注目度): 1.19658449368018
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Following the successes in the fields of vision and language, self-supervised pretraining via masked autoencoding of 3D point set data, or Masked Point Modeling (MPM), has achieved state-of-the-art accuracy in various downstream tasks. However, current MPM methods lack a property essential for 3D point set analysis, namely, invariance against rotation of 3D objects/scenes. Existing MPM methods are thus not necessarily suitable for real-world applications where 3D point sets may have inconsistent orientations. This paper develops, for the first time, a rotation-invariant self-supervised pretraining framework for practical 3D point set analysis. The proposed algorithm, called MaskLRF, learns rotation-invariant and highly generalizable latent features via masked autoencoding of 3D points within Local Reference Frames (LRFs), which are not affected by rotation of 3D point sets. MaskLRF enhances the quality of latent features by integrating feature refinement using relative pose encoding and feature reconstruction using low-level but rich 3D geometry. The efficacy of MaskLRF is validated via extensive experiments on diverse downstream tasks including classification, segmentation, registration, and domain adaptation. I confirm that MaskLRF achieves new state-of-the-art accuracies in analyzing 3D point sets having inconsistent orientations. Code will be available at: https://github.com/takahikof/MaskLRF
- Abstract(参考訳): 視覚・言語分野での成功に続いて、マスク付き3次元点集合データによる自己教師付き事前学習(Masked Point Modeling (MPM))は、様々な下流タスクにおいて最先端の精度を達成している。
しかし、現在のMPM法は3次元点集合解析、すなわち3次元オブジェクト/シーンの回転に対する不変性に欠如している。
したがって、既存の MPM 法は、3次元点集合が矛盾する向きを持つような実世界の応用には必ずしも適していない。
本稿では,3次元点集合解析のための回転不変な自己教師付き事前学習フレームワークを初めて開発する。
提案アルゴリズムはMaskLRFと呼ばれ、3次元点集合の回転の影響を受けない局所参照フレーム(LRF)内の3次元点の自動符号化により、回転不変かつ高一般化可能な潜在特徴を学習する。
MaskLRFは、相対的なポーズエンコーディングと低レベルだがリッチな3D幾何を用いた特徴再構成を併用することで、潜在特徴の質を高める。
MaskLRFの有効性は、分類、セグメンテーション、登録、ドメイン適応を含む様々な下流タスクに関する広範な実験を通じて検証される。
そこで,MaskLRFは,非矛盾な向きを持つ3次元点集合の解析において,最先端の精度を実現していることを確認した。
コードは、https://github.com/takahikof/MaskLRFで入手できる。
関連論文リスト
- Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Gaussian Splatting with Localized Points Management [52.009874685460694]
局所的点管理(LPM)は、点加算と幾何校正の双方の最も高い需要において、これらの誤り貢献ゾーンを特定することができる。
LPMは特定ゾーンに点密度を適用し、これらの領域の前に位置する点の不透明度をリセットし、不条件点を補正する新たな機会を創出する。
特に、LPMはバニラ3DGSとSpaceTimeGSの両方を改善して、リアルタイム速度を維持しながら最先端のレンダリング品質を実現している。
論文 参考訳(メタデータ) (2024-06-06T16:55:07Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - Self-supervised Learning of Rotation-invariant 3D Point Set Features using Transformer and its Self-distillation [3.1652399282742536]
本稿では,オブジェクトレベルでの高精度かつ回転不変な3次元点集合特徴を取得するための,自己教師付き学習フレームワークを提案する。
トークンを改良し,それを3次元点集合ごとに表現的回転不変の特徴に集約するために,自己認識機構を用いる。
提案アルゴリズムは,既存のアルゴリズムよりも高精度な回転不変の3次元点集合特徴を学習する。
論文 参考訳(メタデータ) (2023-08-09T06:03:07Z) - Semantic Validation in Structure from Motion [0.0]
Structure from Motion (SfM) は、一連の投影計測からシーンの3次元構造を復元する過程である。
SfMは、特徴検出とマッチング、カメラモーション推定、および3D構造の回復の3つの主要なステップから構成される。
このプロジェクトは3次元SfMモデルの検証を改善するための新しい方法を提供する。
論文 参考訳(メタデータ) (2023-04-05T12:58:59Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。