論文の概要: P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting
- arxiv url: http://arxiv.org/abs/2208.02812v1
- Date: Thu, 4 Aug 2022 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:05:15.277370
- Title: P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting
- Title(参考訳): p2p:ポイントツーピクセルプロンプトによるポイントクラウド解析のための事前学習画像モデルのチューニング
- Authors: Ziyi Wang, Xumin Yu, Yongming Rao, Jie Zhou, Jiwen Lu
- Abstract要約: 本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。
ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。
また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
- 参考スコア(独自算出の注目度): 94.11915008006483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, pre-training big models on large-scale datasets has become a
crucial topic in deep learning. The pre-trained models with high representation
ability and transferability achieve a great success and dominate many
downstream tasks in natural language processing and 2D vision. However, it is
non-trivial to promote such a pretraining-tuning paradigm to the 3D vision,
given the limited training data that are relatively inconvenient to collect. In
this paper, we provide a new perspective of leveraging pre-trained 2D knowledge
in 3D domain to tackle this problem, tuning pre-trained image models with the
novel Point-to-Pixel prompting for point cloud analysis at a minor parameter
cost. Following the principle of prompting engineering, we transform point
clouds into colorful images with geometry-preserved projection and
geometry-aware coloring to adapt to pre-trained image models, whose weights are
kept frozen during the end-to-end optimization of point cloud analysis tasks.
We conduct extensive experiments to demonstrate that cooperating with our
proposed Point-to-Pixel Prompting, better pre-trained image model will lead to
consistently better performance in 3D vision. Enjoying prosperous development
from image pre-training field, our method attains 89.3% accuracy on the hardest
setting of ScanObjectNN, surpassing conventional point cloud models with much
fewer trainable parameters. Our framework also exhibits very competitive
performance on ModelNet classification and ShapeNet Part Segmentation. Code is
available at https://github.com/wangzy22/P2P
- Abstract(参考訳): 近年,大規模データセット上での大規模モデルの事前トレーニングは,ディープラーニングにおいて重要なトピックとなっている。
表現能力と伝達性が高い事前学習モデルは非常に成功し、自然言語処理や2次元視覚において多くの下流タスクを支配している。
しかし、比較的収集に不便な限られたトレーニングデータを考えると、このような事前学習のパラダイムを3dビジョンに広めることは自明ではない。
本稿では,事前学習された3d領域の2d知識を活用してこの問題に対処し,事前学習された画像モデルに,小額なパラメータコストでポイント・クラウド解析を促す新しいポイント・ツー・ピクセル・プロンプトをチューニングする新しい視点を提案する。
ポイントクラウド分析タスクのエンドツーエンド最適化中に重みが凍結された事前学習された画像モデルに適応するために,ポイントクラウドを幾何保存投影と幾何認識カラー化でカラフルな画像に変換する。
提案するポイント・ツー・ピクセルプロンプトと協調して、事前学習された画像モデルが一貫して3dビジョンのパフォーマンスを向上させることを示すために、広範な実験を行いました。
ScanObjectNNの最も難しい設定では,画像事前学習の分野での発達を楽しみ,89.3%の精度を達成し,トレーニング可能なパラメータがはるかに少ない従来の点雲モデルを上回った。
また、ModelNet分類とShapeNet Part Segmentationで非常に競争力のある性能を示す。
コードはhttps://github.com/wangzy22/P2Pで入手できる。
関連論文リスト
- Adapt PointFormer: 3D Point Cloud Analysis via Adapting 2D Visual Transformers [38.08724410736292]
本稿では,3次元ポイントクラウド解析の課題を達成するために,2次元事前知識を持つ事前学習モデルの活用を試みる。
本稿では,適応ポイントフォーマー (APF) を提案する。
論文 参考訳(メタデータ) (2024-07-18T06:32:45Z) - HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation [106.09886920774002]
本稿では,HVDistillと呼ばれるハイブリッドビューに基づく知識蒸留フレームワークを提案する。
提案手法は,スクラッチからトレーニングしたベースラインに対して一貫した改善を実現し,既存のスキームを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-18T14:18:08Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z) - 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images [128.40422211090078]
本稿では,2次元表現学習モデルから直接知識を取得するために,3次元ポイントクラウド事前学習モデルの知識蒸留手法を提案する。
具体的には、3Dポイントクラウドから概念特徴を抽出し、2D画像からの意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
論文 参考訳(メタデータ) (2022-12-17T23:21:04Z) - Self-Supervised Learning with Multi-View Rendering for 3D Point Cloud
Analysis [33.31864436614945]
本稿では,3次元点雲モデルのための新しい事前学習手法を提案する。
我々の事前訓練は、局所的なピクセル/ポイントレベルの対応損失と、大域的な画像/ポイントの雲のレベル損失によって自己管理される。
これらの改善されたモデルは、さまざまなデータセットや下流タスクにおける既存の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-10-28T05:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。