論文の概要: Adapt PointFormer: 3D Point Cloud Analysis via Adapting 2D Visual Transformers
- arxiv url: http://arxiv.org/abs/2407.13200v1
- Date: Thu, 18 Jul 2024 06:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:42:04.718350
- Title: Adapt PointFormer: 3D Point Cloud Analysis via Adapting 2D Visual Transformers
- Title(参考訳): Adapt PointFormer:2Dビジュアルトランスによる3Dポイントクラウド分析
- Authors: Mengke Li, Da Li, Guoqing Yang, Yiu-ming Cheung, Hui Huang,
- Abstract要約: 本稿では,3次元ポイントクラウド解析の課題を達成するために,2次元事前知識を持つ事前学習モデルの活用を試みる。
本稿では,適応ポイントフォーマー (APF) を提案する。
- 参考スコア(独自算出の注目度): 38.08724410736292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained large-scale models have exhibited remarkable efficacy in computer vision, particularly for 2D image analysis. However, when it comes to 3D point clouds, the constrained accessibility of data, in contrast to the vast repositories of images, poses a challenge for the development of 3D pre-trained models. This paper therefore attempts to directly leverage pre-trained models with 2D prior knowledge to accomplish the tasks for 3D point cloud analysis. Accordingly, we propose the Adaptive PointFormer (APF), which fine-tunes pre-trained 2D models with only a modest number of parameters to directly process point clouds, obviating the need for mapping to images. Specifically, we convert raw point clouds into point embeddings for aligning dimensions with image tokens. Given the inherent disorder in point clouds, in contrast to the structured nature of images, we then sequence the point embeddings to optimize the utilization of 2D attention priors. To calibrate attention across 3D and 2D domains and reduce computational overhead, a trainable PointFormer with a limited number of parameters is subsequently concatenated to a frozen pre-trained image model. Extensive experiments on various benchmarks demonstrate the effectiveness of the proposed APF. The source code and more details are available at https://vcc.tech/research/2024/PointFormer.
- Abstract(参考訳): 事前訓練された大規模モデルはコンピュータビジョン、特に2次元画像解析において顕著な効果を示した。
しかし、3Dポイントクラウドに関しては、膨大な画像のリポジトリとは対照的に、データの制限されたアクセシビリティは、3D事前訓練されたモデルの開発に課題をもたらす。
そこで本研究では,2次元事前知識を持つ事前学習モデルを直接活用して,3次元ポイントクラウド解析の課題を遂行する。
そこで,APF(Adaptive PointFormer)を提案する。このモデルでは,画像へのマッピングの必要性を回避し,ポイントクラウドを直接処理するためのパラメータの数が少なく,事前訓練された2Dモデルを微調整する。
具体的には、原点雲を画像トークンと寸法を合わせるための点埋め込みに変換する。
画像の構造的性質とは対照的に、点雲に固有の障害を考慮に入れれば、点埋め込みをシーケンスして2次元の注意の事前利用を最適化する。
3Dおよび2D領域の注意を校正し、計算オーバーヘッドを低減するため、限られた数のパラメータを持つトレーニング可能なPointFormerは、その後、凍結事前訓練された画像モデルに連結される。
様々なベンチマークで大規模な実験を行い、提案したAPFの有効性を示した。
ソースコードと詳細はhttps://vcc.tech/research/2024/PointFormer.orgで公開されている。
関連論文リスト
- Robust 3D Point Clouds Classification based on Declarative Defenders [18.51700931775295]
3Dポイントの雲は非構造的でスパースであり、2Dイメージは構造的で密度が高い。
本稿では,3次元点雲を2次元画像にマッピングする3つの異なるアルゴリズムについて検討する。
提案手法は敵攻撃に対する高い精度と堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-13T01:32:38Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - Intrinsic Image Decomposition Using Point Cloud Representation [13.771632868567277]
本稿では3次元クラウドデータを利用してアルベドとシェーディングマップを同時に推定するPoint Intrinsic Net(PoInt-Net)を紹介する。
PoInt-Netは効率的で、任意のサイズのポイントクラウドで一貫したパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-20T14:51:28Z) - 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images [128.40422211090078]
本稿では,2次元表現学習モデルから直接知識を取得するために,3次元ポイントクラウド事前学習モデルの知識蒸留手法を提案する。
具体的には、3Dポイントクラウドから概念特徴を抽出し、2D画像からの意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
論文 参考訳(メタデータ) (2022-12-17T23:21:04Z) - Leveraging Single-View Images for Unsupervised 3D Point Cloud Completion [53.93172686610741]
Cross-PCCは3次元完全点雲を必要としない教師なしの点雲補完法である。
2次元画像の相補的な情報を活用するために,単視点RGB画像を用いて2次元特徴を抽出する。
我々の手法は、いくつかの教師付き手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-12-01T15:11:21Z) - P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。
ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。
また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2022-08-04T17:59:03Z) - Unsupervised Learning of Fine Structure Generation for 3D Point Clouds
by 2D Projection Matching [66.98712589559028]
微細な構造を持つ3次元点雲生成のための教師なしアプローチを提案する。
本手法は2次元シルエット画像から異なる解像度で微細な3次元構造を復元することができる。
論文 参考訳(メタデータ) (2021-08-08T22:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。