論文の概要: Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2212.06785v1
- Date: Tue, 13 Dec 2022 17:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:34:11.237010
- Title: Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders
- Title(参考訳): image-to-point masked autoencoderによる2次元事前学習モデルからの3次元表現の学習
- Authors: Renrui Zhang, Liuhui Wang, Yu Qiao, Peng Gao, Hongsheng Li
- Abstract要約: I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
- 参考スコア(独自算出の注目度): 52.91248611338202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training by numerous image data has become de-facto for robust 2D
representations. In contrast, due to the expensive data acquisition and
annotation, a paucity of large-scale 3D datasets severely hinders the learning
for high-quality 3D features. In this paper, we propose an alternative to
obtain superior 3D representations from 2D pre-trained models via
Image-to-Point Masked Autoencoders, named as I2P-MAE. By self-supervised
pre-training, we leverage the well learned 2D knowledge to guide 3D masked
autoencoding, which reconstructs the masked point tokens with an
encoder-decoder architecture. Specifically, we first utilize off-the-shelf 2D
models to extract the multi-view visual features of the input point cloud, and
then conduct two types of image-to-point learning schemes on top. For one, we
introduce a 2D-guided masking strategy that maintains semantically important
point tokens to be visible for the encoder. Compared to random masking, the
network can better concentrate on significant 3D structures and recover the
masked tokens from key spatial cues. For another, we enforce these visible
tokens to reconstruct the corresponding multi-view 2D features after the
decoder. This enables the network to effectively inherit high-level 2D
semantics learned from rich image data for discriminative 3D modeling. Aided by
our image-to-point pre-training, the frozen I2P-MAE, without any fine-tuning,
achieves 93.4% accuracy for linear SVM on ModelNet40, competitive to the fully
trained results of existing methods. By further fine-tuning on on
ScanObjectNN's hardest split, I2P-MAE attains the state-of-the-art 90.11%
accuracy, +3.68% to the second-best, demonstrating superior transferable
capacity. Code will be available at https://github.com/ZrrSkywalker/I2P-MAE.
- Abstract(参考訳): 多数の画像データによる事前学習は、ロバストな2d表現のデファクトとなっている。
対照的に、高価なデータ取得とアノテーションのため、大規模な3Dデータセットの不完全さは、高品質な3D機能の学習を著しく妨げます。
本稿では,イメージ・ツー・ポイント・マスクド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により,十分に学習された2次元知識を活用し,エンコーダ-デコーダアーキテクチャを用いてマスクドポイントトークンを再構築する3dマスク付き自動エンコーディングをガイドする。
具体的には,市販の2dモデルを用いて入力ポイントクラウドの多視点視覚特徴を抽出し,その上に2種類の画像対ポイント学習スキームを展開する。
まず,意味的に重要なポイントトークンをエンコーダに表示するための2次元誘導マスキング方式を提案する。
ランダムマスキングと比較して、ネットワークは重要な3d構造に集中し、主要な空間的手がかりからマスキングトークンを回収することができる。
別の例として、デコーダの後に対応するマルチビュー2D特徴を再構成するために、これらの可視トークンを強制する。
これにより、差別的な3Dモデリングのためにリッチな画像データから得られた高レベルの2Dセマンティクスを効果的に継承することができる。
イメージ・ツー・ポイントの事前トレーニングによって、凍結したI2P-MAEは微調整なしで、ModelNet40上の線形SVMに対して93.4%の精度を達成し、既存の手法の完全に訓練された結果と競合する。
ScanObjectNNの最も難しい分割をさらに微調整することで、I2P-MAEは最先端の90.11%の精度、+3.68%の精度を達成でき、転送能力に優れていた。
コードはhttps://github.com/ZrrSkywalker/I2P-MAEで入手できる。
関連論文リスト
- NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Data Efficient 3D Learner via Knowledge Transferred from 2D Model [30.077342050473515]
我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。
擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。
提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2022-03-16T09:14:44Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。