論文の概要: Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models
- arxiv url: http://arxiv.org/abs/2307.14971v1
- Date: Thu, 27 Jul 2023 16:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 13:51:32.747227
- Title: Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models
- Title(参考訳): take-a-photo:ポイントクラウドモデルの3dから2d生成前トレーニング
- Authors: Ziyi Wang, Xumin Yu, Yongming Rao, Jie Zhou, Jiwen Lu
- Abstract要約: 生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
- 参考スコア(独自算出の注目度): 94.11915008006483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the overwhelming trend of mask image modeling led by MAE, generative
pre-training has shown a remarkable potential to boost the performance of
fundamental models in 2D vision. However, in 3D vision, the over-reliance on
Transformer-based backbones and the unordered nature of point clouds have
restricted the further development of generative pre-training. In this paper,
we propose a novel 3D-to-2D generative pre-training method that is adaptable to
any point cloud model. We propose to generate view images from different
instructed poses via the cross-attention mechanism as the pre-training scheme.
Generating view images has more precise supervision than its point cloud
counterpart, thus assisting 3D backbones to have a finer comprehension of the
geometrical structure and stereoscopic relations of the point cloud.
Experimental results have proved the superiority of our proposed 3D-to-2D
generative pre-training over previous pre-training methods. Our method is also
effective in boosting the performance of architecture-oriented approaches,
achieving state-of-the-art performance when fine-tuning on ScanObjectNN
classification and ShapeNetPart segmentation tasks. Code is available at
https://github.com/wangzy22/TAP.
- Abstract(参考訳): MAEによるマスク画像モデリングの圧倒的な傾向により、生成事前学習は2次元視覚における基本モデルの性能を高める驚くべき可能性を示している。
しかし、3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質は、生成前のトレーニングのさらなる発展を妨げている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
本稿では,前訓練方式としてクロスアテンション機構を用いて異なるポーズから視点画像を生成することを提案する。
ビューイメージの生成は、ポイントクラウドよりも正確な監督を行うため、3dバックボーンがポイントクラウドの幾何学的構造と立体的関係をより詳細に理解できるように支援する。
提案した3D-to-2D生成前訓練法は,従来の事前訓練法よりも優れていた。
また,scanobjectnn分類やshapenetpartセグメンテーションタスクを微調整する場合,アーキテクチャ指向アプローチの性能向上や最先端の性能向上にも有効である。
コードはhttps://github.com/wangzy22/tapで入手できる。
関連論文リスト
- Adapt PointFormer: 3D Point Cloud Analysis via Adapting 2D Visual Transformers [38.08724410736292]
本稿では,3次元ポイントクラウド解析の課題を達成するために,2次元事前知識を持つ事前学習モデルの活用を試みる。
本稿では,適応ポイントフォーマー (APF) を提案する。
論文 参考訳(メタデータ) (2024-07-18T06:32:45Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z) - 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images [128.40422211090078]
本稿では,2次元表現学習モデルから直接知識を取得するために,3次元ポイントクラウド事前学習モデルの知識蒸留手法を提案する。
具体的には、3Dポイントクラウドから概念特徴を抽出し、2D画像からの意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
論文 参考訳(メタデータ) (2022-12-17T23:21:04Z) - P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。
ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。
また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2022-08-04T17:59:03Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。