論文の概要: RI-MAE: Rotation-Invariant Masked AutoEncoders for Self-Supervised Point Cloud Representation Learning
- arxiv url: http://arxiv.org/abs/2409.00353v2
- Date: Wed, 25 Dec 2024 03:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:18.193606
- Title: RI-MAE: Rotation-Invariant Masked AutoEncoders for Self-Supervised Point Cloud Representation Learning
- Title(参考訳): RI-MAE:自己教師付きポイントクラウド表現学習のための回転不変マスク付きオートエンコーダ
- Authors: Kunming Su, Qiuxia Wu, Panpan Cai, Xiaogang Zhu, Xuequan Lu, Zhiyong Wang, Kun Hu,
- Abstract要約: マスク付きポイントモデリング手法は,最近,ポイントクラウドデータの自己教師付き学習において大きな成功を収めている。
これらの手法は回転に敏感であり、回転変動に遭遇するときにしばしば鋭い性能低下を示す。
本稿では,2つの課題に対処するために,回転不変マスク付きオートエンコーダ(RI-MAE)を提案する。
- 参考スコア(独自算出の注目度): 24.532566288697684
- License:
- Abstract: Masked point modeling methods have recently achieved great success in self-supervised learning for point cloud data. However, these methods are sensitive to rotations and often exhibit sharp performance drops when encountering rotational variations. In this paper, we propose a novel Rotation-Invariant Masked AutoEncoders (RI-MAE) to address two major challenges: 1) achieving rotation-invariant latent representations, and 2) facilitating self-supervised reconstruction in a rotation-invariant manner. For the first challenge, we introduce RI-Transformer, which features disentangled geometry content, rotation-invariant relative orientation and position embedding mechanisms for constructing rotation-invariant point cloud latent space. For the second challenge, a novel dual-branch student-teacher architecture is devised. It enables the self-supervised learning via the reconstruction of masked patches within the learned rotation-invariant latent space. Each branch is based on an RI-Transformer, and they are connected with an additional RI-Transformer predictor. The teacher encodes all point patches, while the student solely encodes unmasked ones. Finally, the predictor predicts the latent features of the masked patches using the output latent embeddings from the student, supervised by the outputs from the teacher. Extensive experiments demonstrate that our method is robust to rotations, achieving the state-of-the-art performance on various downstream tasks. Our code is available at https://github.com/kunmingsu07/RI-MAE.
- Abstract(参考訳): マスク付きポイントモデリング手法は,最近,ポイントクラウドデータの自己教師付き学習において大きな成功を収めている。
しかし、これらの手法は回転に敏感であり、回転変動に遭遇するときにしばしば鋭い性能低下を示す。
本稿では,2つの課題に対処する新しい回転不変マスク付きオートエンコーダ(RI-MAE)を提案する。
1)回転不変ラテント表現の達成,及び
2)回転不変な自己監督的再構築を容易にする。
まず, 回転不変点雲潜時空間を構成するために, 絡み合った幾何学的内容, 回転不変相対方向, 位置埋め込み機構を特徴とする RI-Transformer を導入する。
第2の課題として、新しいデュアルブランチの学生-教師アーキテクチャが考案された。
これにより、学習された回転不変ラテント空間内のマスクパッチの再構成による自己教師付き学習が可能になる。
各ブランチはRI-Transformerに基づいており、追加のRI-Transformer予測器と接続されている。
教師はすべての点パッチをエンコードし、生徒は未完成のパッチだけをエンコードします。
最後に、予測器は、教師からの出力で教師が監督する学生からの出力潜伏埋め込みを用いて、マスクされたパッチの潜伏特徴を予測する。
大規模な実験により,本手法はローテーションに頑健であり,様々な下流タスクにおける最先端性能を実現することができた。
私たちのコードはhttps://github.com/kunmingsu07/RI-MAEで利用可能です。
関連論文リスト
- Masked Angle-Aware Autoencoder for Remote Sensing Images [43.65954772044253]
本稿では,masked Angle-Aware Autoencoder (MA3E)を提案する。
3つの下流タスクにおいて、7つの異なるRS画像データセットにおいて、MA3Eは既存の事前学習手法よりも、より競争力のある性能を示す。
論文 参考訳(メタデータ) (2024-08-04T07:12:59Z) - PARE-Net: Position-Aware Rotation-Equivariant Networks for Robust Point Cloud Registration [8.668461141536383]
回転不変の特徴を学習することは、ポイントクラウド登録の基本的な要件である。
既存の手法では、回転に敏感なネットワークを用いて特徴を抽出し、回転拡大を用いて近似不変写像を無作為に学習する。
高速で軽量でロバストな登録のための位置認識型回転同変ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-14T10:26:38Z) - Rotation-Invariant Transformer for Point Cloud Matching [42.5714375149213]
我々は,回転不変変換器であるRoITrを導入し,点クラウドマッチングタスクにおけるポーズ変動に対処する。
本稿では,自己認識機構によって学習した,回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。
RoITrは、Inlier RatioとRegistration Recallの点で、既存のメソッドを少なくとも13と5のパーセンテージで上回っている。
論文 参考訳(メタデータ) (2023-03-14T20:55:27Z) - PaRot: Patch-Wise Rotation-Invariant Network via Feature Disentanglement
and Pose Restoration [16.75367717130046]
最先端モデルは回転に対して堅牢ではなく、実際の応用に先立って未知のままである。
Patch-wise Rotation-invariant Network (PaRot)を導入する。
本モジュールは高品質な回転ロバスト特性を抽出し,提案した軽量モデルにより競争結果が得られた。
論文 参考訳(メタデータ) (2023-02-06T02:13:51Z) - SPE-Net: Boosting Point Cloud Analysis via Rotation Robustness
Enhancement [118.20816888815658]
SPE-Netという名前の3Dポイントクラウドアプリケーションに適した新しいディープアーキテクチャを提案する。
埋め込みSelective Position variant' の手順は、入力の根底にある回転条件に効果的に対応できる注意機構に依存している。
SPE-Netと関連する仮説の利点を4つのベンチマークで示し、SOTA法よりも回転試験データと回転試験データの両方に明らかな改善点を示した。
論文 参考訳(メタデータ) (2022-11-15T15:59:09Z) - ART-Point: Improving Rotation Robustness of Point Cloud Classifiers via
Adversarial Rotation [89.47574181669903]
本研究では, 点雲分類器の回転ロバスト性も, 対角訓練により得られることを示す。
具体的には、ART-Pointというフレームワークは、ポイントクラウドの回転を攻撃と見なしている。
最終的なロバストモデルに効率よく到達するために,高速なワンステップ最適化を提案する。
論文 参考訳(メタデータ) (2022-03-08T07:20:16Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Attentive Rotation Invariant Convolution for Point Cloud-based Large
Scale Place Recognition [11.433270318356675]
本稿では,Attentive Rotation Invariant Convolution (ARIConv)を提案する。
クラウドスキャンを回転させた場合の大規模位置認識タスクにおいて,本モデルが最先端の性能を達成できることを実験的に実証した。
論文 参考訳(メタデータ) (2021-08-29T09:10:56Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。