論文の概要: 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images
- arxiv url: http://arxiv.org/abs/2212.08974v1
- Date: Sat, 17 Dec 2022 23:21:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:22:26.902664
- Title: 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images
- Title(参考訳): 2次元画像からの知識蒸留による3次元点雲事前学習
- Authors: Yuan Yao, Yuanhan Zhang, Zhenfei Yin, Jiebo Luo, Wanli Ouyang,
Xiaoshui Huang
- Abstract要約: 本稿では,2次元表現学習モデルから直接知識を取得するために,3次元ポイントクラウド事前学習モデルの知識蒸留手法を提案する。
具体的には、3Dポイントクラウドから概念特徴を抽出し、2D画像からの意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
- 参考スコア(独自算出の注目度): 128.40422211090078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of pre-trained 2D vision models is mostly attributable to
learning from large-scale datasets. However, compared with 2D image datasets,
the current pre-training data of 3D point cloud is limited. To overcome this
limitation, we propose a knowledge distillation method for 3D point cloud
pre-trained models to acquire knowledge directly from the 2D representation
learning model, particularly the image encoder of CLIP, through concept
alignment. Specifically, we introduce a cross-attention mechanism to extract
concept features from 3D point cloud and compare them with the semantic
information from 2D images. In this scheme, the point cloud pre-trained models
learn directly from rich information contained in 2D teacher models. Extensive
experiments demonstrate that the proposed knowledge distillation scheme
achieves higher accuracy than the state-of-the-art 3D pre-training methods for
synthetic and real-world datasets on downstream tasks, including object
classification, object detection, semantic segmentation, and part segmentation.
- Abstract(参考訳): 最近のトレーニング済みの2Dビジョンモデルの成功は、主に大規模なデータセットから学ぶことに起因する。
しかし、2D画像データセットと比較して、現在の3Dポイントクラウドの事前トレーニングデータは限られている。
この限界を克服するために,2次元表現学習モデル,特にクリップのイメージエンコーダから知識を直接獲得するための3次元点クラウド事前学習モデルのための知識蒸留法を提案する。
具体的には,3dポイントクラウドから概念特徴を抽出し,2d画像から意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
提案手法は,オブジェクト分類,オブジェクト検出,意味セグメンテーション,部分セグメンテーションなど,下流タスクにおける合成および実世界のデータセットに対する最先端の3次元事前学習法よりも高い精度を実現した。
関連論文リスト
- Adapt PointFormer: 3D Point Cloud Analysis via Adapting 2D Visual Transformers [38.08724410736292]
本稿では,3次元ポイントクラウド解析の課題を達成するために,2次元事前知識を持つ事前学習モデルの活用を試みる。
本稿では,適応ポイントフォーマー (APF) を提案する。
論文 参考訳(メタデータ) (2024-07-18T06:32:45Z) - HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation [106.09886920774002]
本稿では,HVDistillと呼ばれるハイブリッドビューに基づく知識蒸留フレームワークを提案する。
提案手法は,スクラッチからトレーニングしたベースラインに対して一貫した改善を実現し,既存のスキームを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-18T14:18:08Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - Self-Supervised Learning with Multi-View Rendering for 3D Point Cloud
Analysis [33.31864436614945]
本稿では,3次元点雲モデルのための新しい事前学習手法を提案する。
我々の事前訓練は、局所的なピクセル/ポイントレベルの対応損失と、大域的な画像/ポイントの雲のレベル損失によって自己管理される。
これらの改善されたモデルは、さまざまなデータセットや下流タスクにおける既存の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-10-28T05:23:03Z) - P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。
ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。
また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2022-08-04T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。