論文の概要: Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training
- arxiv url: http://arxiv.org/abs/2302.14007v3
- Date: Mon, 25 Sep 2023 17:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 03:55:04.116000
- Title: Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training
- Title(参考訳): ジョイントMAE:3Dポイントクラウド事前トレーニング用2D-3Dジョイントマスク付きオートエンコーダ
- Authors: Ziyu Guo, Renrui Zhang, Longtian Qiu, Xianzhi Li, Pheng-Ann Heng
- Abstract要約: Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
- 参考スコア(独自算出の注目度): 65.75399500494343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Autoencoders (MAE) have shown promising performance in self-supervised
learning for both 2D and 3D computer vision. However, existing MAE-style
methods can only learn from the data of a single modality, i.e., either images
or point clouds, which neglect the implicit semantic and geometric correlation
between 2D and 3D. In this paper, we explore how the 2D modality can benefit 3D
masked autoencoding, and propose Joint-MAE, a 2D-3D joint MAE framework for
self-supervised 3D point cloud pre-training. Joint-MAE randomly masks an input
3D point cloud and its projected 2D images, and then reconstructs the masked
information of the two modalities. For better cross-modal interaction, we
construct our JointMAE by two hierarchical 2D-3D embedding modules, a joint
encoder, and a joint decoder with modal-shared and model-specific decoders. On
top of this, we further introduce two cross-modal strategies to boost the 3D
representation learning, which are local-aligned attention mechanisms for 2D-3D
semantic cues, and a cross-reconstruction loss for 2D-3D geometric constraints.
By our pre-training paradigm, Joint-MAE achieves superior performance on
multiple downstream tasks, e.g., 92.4% accuracy for linear SVM on ModelNet40
and 86.07% accuracy on the hardest split of ScanObjectNN.
- Abstract(参考訳): Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンの両方において、自己教師型学習において有望な性能を示した。
しかし、既存のmaeスタイルの手法は、2dと3dの暗黙的な意味と幾何学的相関を無視するイメージやポイントクラウドといった単一のモダリティのデータからのみ学習することができる。
本稿では,2次元モダリティが3次元マスクによる自動エンコーディングにどのように役立つかを検討し,自己教師付き3次元ポイントクラウドプリトレーニングのための2d-3dジョイントmaeフレームワークであるjoint-maeを提案する。
ジョイントMAEは入力された3Dポイントクラウドとその投影された2Dイメージをランダムにマスキングし、2つのモードのマスキング情報を再構成する。
2つの階層的な2D-3D埋め込みモジュール、ジョイントエンコーダ、およびモーダルシェードおよびモデル固有デコーダを用いたジョイントデコーダにより、より優れたクロスモーダル相互作用を実現する。
さらに,2次元3次元のセマンティックキューに対する局所的アテンション機構である3次元表現学習の促進と,2次元3次元の幾何制約に対するクロスコンストラクション損失の2つのクロスモーダル戦略を導入する。
トレーニング前のパラダイムにより、Joint-MAEは、ModelNet40上の線形SVMの92.4%の精度、ScanObjectNNの最も難しい分割における86.07%の精度など、複数のダウンストリームタスクにおいて優れたパフォーマンスを達成する。
関連論文リスト
- Zero-Shot Dual-Path Integration Framework for Open-Vocabulary 3D Instance Segmentation [19.2297264550686]
Open-vocabulary 3Dのインスタンスセグメンテーションは、従来のクローズドボキャブラリーメソッドを超越する。
我々は、Zero-Shot Dual-Path Integration Frameworkを導入し、3Dと2Dの両方のモダリティの貢献を等しく評価する。
筆者らのフレームワークは,ゼロショット方式で事前学習したモデルを利用しており,モデル非依存であり,目に見えるデータと目に見えないデータの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-16T07:52:00Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。