論文の概要: Block-to-Scene Pre-training for Point Cloud Hybrid-Domain Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2410.09886v1
- Date: Sun, 13 Oct 2024 15:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 04:23:08.563618
- Title: Block-to-Scene Pre-training for Point Cloud Hybrid-Domain Masked Autoencoders
- Title(参考訳): ポイントクラウドハイブリッド型マスクオートエンコーダのブロック・ツー・シーン事前学習
- Authors: Yaohua Zha, Tao Dai, Yanzi Wang, Hang Guo, Taolin Zhang, Zhihao Ouyang, Chunlin Fan, Bin Chen, Ke Chen, Shu-Tao Xia,
- Abstract要約: Masked Autoencoders (MAE) は、ポイントクラウドの自己教師型学習において主流のパラダイムとなっている。
我々は,ブロック・ツー・シーンの事前学習戦略を通じて,一般のポイントクラウドであるHybrid-Domain Masked AutoEncoder (PointHDMAE) を事前訓練することを提案する。
- 参考スコア(独自算出の注目度): 49.38761206836343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point clouds, as a primary representation of 3D data, can be categorized into scene domain point clouds and object domain point clouds based on the modeled content. Masked autoencoders (MAE) have become the mainstream paradigm in point clouds self-supervised learning. However, existing MAE-based methods are domain-specific, limiting the model's generalization. In this paper, we propose to pre-train a general Point cloud Hybrid-Domain Masked AutoEncoder (PointHDMAE) via a block-to-scene pre-training strategy. We first propose a hybrid-domain masked autoencoder consisting of an encoder and decoder belonging to the scene domain and object domain, respectively. The object domain encoder specializes in handling object point clouds and multiple shared object encoders assist the scene domain encoder in analyzing the scene point clouds. Furthermore, we propose a block-to-scene strategy to pre-train our hybrid-domain model. Specifically, we first randomly select point blocks within a scene and apply a set of transformations to convert each point block coordinates from the scene space to the object space. Then, we employ an object-level mask and reconstruction pipeline to recover the masked points of each block, enabling the object encoder to learn a universal object representation. Finally, we introduce a scene-level block position regression pipeline, which utilizes the blocks' features in the object space to regress these blocks' initial positions within the scene space, facilitating the learning of scene representations. Extensive experiments across different datasets and tasks demonstrate the generalization and superiority of our hybrid-domain model.
- Abstract(参考訳): ポイントクラウドは、3Dデータの主表現として、モデル化されたコンテンツに基づいてシーンドメインポイントクラウドとオブジェクトドメインポイントクラウドに分類することができる。
Masked Autoencoders (MAE) は、ポイントクラウドの自己教師型学習において主流のパラダイムとなっている。
しかし、既存のMAEベースの手法はドメイン固有であり、モデルの一般化を制限している。
本稿では,ブロック・ツー・シーン事前学習戦略を用いて,一般のPoint Cloud Hybrid-Domain Masked AutoEncoder (PointHDMAE) の事前学習を提案する。
まず、シーンドメインとオブジェクトドメインに属するエンコーダとデコーダからなるハイブリッドドメインマスク付きオートエンコーダを提案する。
オブジェクトドメインエンコーダは、オブジェクトポイントクラウドの処理を専門とし、複数の共有オブジェクトエンコーダはシーンポイントクラウドの分析においてシーンドメインエンコーダを支援する。
さらに,ハイブリッドドメインモデルを事前学習するためのブロック・ツー・シーン戦略を提案する。
具体的には、まずシーン内の点ブロックをランダムに選択し、各点ブロック座標をシーン空間からオブジェクト空間に変換するために一連の変換を適用する。
次に,オブジェクトレベルのマスクと再構成パイプラインを用いて各ブロックのマスキングポイントを復元し,オブジェクトエンコーダが普遍的なオブジェクト表現を学習できるようにする。
最後に,シーン空間内のブロックの初期位置を回帰するために,オブジェクト空間におけるブロックの特徴を利用するシーンレベルのブロック位置回帰パイプラインを導入し,シーン表現の学習を容易にする。
異なるデータセットやタスクにわたる大規模な実験は、我々のハイブリッドドメインモデルの一般化と優位性を示している。
関連論文リスト
- 3D Focusing-and-Matching Network for Multi-Instance Point Cloud Registration [45.579241614565376]
マルチインスタンスポイントクラウド登録のための強力な3D焦点マッチングネットワークを提案する。
自己アテンションと横断アテンションを使用することで、オブジェクトセンターを後退させることで、潜在的なマッチングインスタンスを見つけることができる。
提案手法は,マルチインスタンスポイントクラウド登録タスクにおいて,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-12T12:04:44Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Compositional Semantic Mix for Domain Adaptation in Point Cloud
Segmentation [65.78246406460305]
合成意味混合は、ポイントクラウドセグメンテーションのための最初の教師なし領域適応技術である。
本稿では、ソースドメイン(例えば合成)からの点雲とターゲットドメイン(例えば実世界)からの点雲を同時に処理できる2分岐対称ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T14:43:36Z) - OGC: Unsupervised 3D Object Segmentation from Rigid Dynamics of Point
Clouds [4.709764624933227]
OGCと呼ばれる最初の教師なしの手法を提案し、同時に複数の3Dオブジェクトを1つの前方通過で識別する。
提案手法を5つのデータセット上で広範囲に評価し,オブジェクト部分のインスタンスセグメンテーションにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-10T07:01:08Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - Masked Autoencoders in 3D Point Cloud Representation Learning [7.617783375837524]
3Dポイントクラウド表現学習におけるマスク付きオートエンコーダを提案する(略してMAE3D)。
最初はインプットポイントクラウドをパッチに分割し、その一部をマスクし、次にPatch Embedding Moduleを使って未成熟のパッチの特徴を抽出しました。
総合的な実験により、ポイントクラウドパッチからMAE3Dによって抽出された局所的特徴が下流分類タスクに有用であることが示されている。
論文 参考訳(メタデータ) (2022-07-04T16:13:27Z) - Masked Autoencoders for Self-Supervised Learning on Automotive Point
Clouds [2.8544513613730205]
Maskedオートエンコーディングは、テキスト、画像、そして最近ではポイントクラウドのためのTransformerモデルの事前トレーニングパラダイムとして成功している。
本稿では,ボクセル表現のためのマスク付き自動符号化事前学習方式であるVoxelMAEを提案する。
提案手法は,難解なnuScenesデータセット上で1.75mAPポイントと1.05NDSで3D OD性能を向上する。
論文 参考訳(メタデータ) (2022-07-01T16:31:45Z) - SE(3)-Equivariant Attention Networks for Shape Reconstruction in
Function Space [50.14426188851305]
本稿では,第1のSE(3)-equivariant coordinate-based networkを提案する。
入力を正規格子に整列させる従来の形状再構成法とは対照的に、不規則で無向な点雲を直接操作する。
提案手法は,従来のSO(3)-equivariant法,およびSO(3)-augmented dataで訓練された非equivariant法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:15Z) - Learning Local Displacements for Point Cloud Completion [93.54286830844134]
本稿では,3次元点雲として表現された部分的スキャンからオブジェクトとセマンティックシーンを補完する手法を提案する。
アーキテクチャはエンコーダ-デコーダ構造内で連続的に使用される3つの新しいレイヤに依存している。
オブジェクトと屋内の両方のシーン完了タスクにおけるアーキテクチャの評価を行い、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:31:37Z) - Masked Discrimination for Self-Supervised Learning on Point Clouds [27.652157544218234]
マスク付きオートエンコーディングは、画像と言語領域における自己教師型学習において大きな成功を収めた。
PointNetのような標準的なバックボーンは、トレーニング中にマスクによって導入された分散ミスマッチのトレーニングとテストのミスマッチを適切に処理できない。
我々はこのギャップを、ポイントクラウドのための差別マスク事前学習フレームワークMaskPointを提案し、橋渡しする。
論文 参考訳(メタデータ) (2022-03-21T17:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。