論文の概要: Frozen CLIP Model is Efficient Point Cloud Backbone
- arxiv url: http://arxiv.org/abs/2212.04098v1
- Date: Thu, 8 Dec 2022 06:27:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 15:44:10.977196
- Title: Frozen CLIP Model is Efficient Point Cloud Backbone
- Title(参考訳): Frozen CLIP Model - 効率的なポイントクラウドバックボーン
- Authors: Xiaoshui Huang, Sheng Li, Wentao Qu, Tong He, Yifan Zuo, Wanli Ouyang
- Abstract要約: textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL)
我々のEPCLは、2D-3Dデータをペア化せずに2D特徴とポイントクラウド特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
- 参考スコア(独自算出の注目度): 83.44915413703315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pretraining-finetuning paradigm has demonstrated great success in NLP and
2D image fields because of the high-quality representation ability and
transferability of their pretrained models. However, pretraining such a strong
model is difficult in the 3D point cloud field since the training data is
limited and point cloud collection is expensive. This paper introduces
\textbf{E}fficient \textbf{P}oint \textbf{C}loud \textbf{L}earning (EPCL), an
effective and efficient point cloud learner for directly training high-quality
point cloud models with a frozen CLIP model. Our EPCL connects the 2D and 3D
modalities by semantically aligning the 2D features and point cloud features
without paired 2D-3D data. Specifically, the input point cloud is divided into
a sequence of tokens and directly fed into the frozen CLIP model to learn point
cloud representation. Furthermore, we design a task token to narrow the gap
between 2D images and 3D point clouds. Comprehensive experiments on 3D
detection, semantic segmentation, classification and few-shot learning
demonstrate that the 2D CLIP model can be an efficient point cloud backbone and
our method achieves state-of-the-art accuracy on both real-world and synthetic
downstream tasks. Code will be available.
- Abstract(参考訳): プレトレーニングファインタニングのパラダイムは、高品質な表現能力と事前トレーニングされたモデルの転送性のため、NLPおよび2次元画像フィールドで大きな成功を収めている。
しかし,3dポイントクラウド領域では,トレーニングデータに制限があり,ポイントクラウドの収集にコストがかかるため,事前学習は困難である。
本稿では,凍ったクリップモデルを用いて高品質なポイントクラウドモデルを直接トレーニングするための,効率的かつ効率的なポイントクラウド学習器である \textbf{e}fficient \textbf{p}oint \textbf{c}loud \textbf{l}earning (epcl)を提案する。
我々のEPCLは、2D-3Dデータなしで2D特徴とポイントクラウド特徴を意味的に整合させることで、2Dと3Dのモダリティを接続します。
具体的には、入力ポイントクラウドを一連のトークンに分割し、凍ったCLIPモデルに直接供給してポイントクラウド表現を学習する。
さらに、2d画像と3dポイントクラウドの間のギャップを狭めるタスクトークンを設計した。
3次元検出,セマンティックセグメンテーション,分類,少数ショット学習に関する総合的な実験により,2次元CLIPモデルは効率的なポイントクラウドバックボーンとなり,本手法は実世界および合成下流の両方のタスクにおいて最先端の精度を実現する。
コードは利用可能だ。
関連論文リスト
- P2P-Bridge: Diffusion Bridges for 3D Point Cloud Denoising [81.92854168911704]
私たちは、Diffusion Schr"odingerブリッジをポイントクラウドに適応させる新しいフレームワークを通じて、ポイントクラウドを飾るタスクに取り組みます。
オブジェクトデータセットの実験では、P2P-Bridgeは既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-08-29T08:00:07Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - PRED: Pre-training via Semantic Rendering on LiDAR Point Clouds [18.840000859663153]
本稿では,屋外点雲のための画像支援事前学習フレームワークPreDを提案する。
我々のフレームワークの主な構成要素は、Birds-Eye-View (BEV) 機能マップ条件付きセマンティックレンダリングである。
我々は、高マスキング比のポイントワイドマスクを組み込むことにより、モデルの性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-11-08T07:26:09Z) - 2D-3D Interlaced Transformer for Point Cloud Segmentation with
Scene-Level Supervision [36.282611420496416]
本稿では,2つのエンコーダと1つのデコーダを備えた変圧器モデルを提案する。
デコーダは2D-3Dクロスアテンションを実装し、暗黙の2Dおよび3D特徴融合を実行する。
実験により、既存の弱教師付きポイントクラウドセグメンテーション法に対して好適に動作することが示された。
論文 参考訳(メタデータ) (2023-10-19T15:12:44Z) - Point2Vec for Self-Supervised Representation Learning on Point Clouds [66.53955515020053]
Data2vecをポイントクラウド領域に拡張し、いくつかのダウンストリームタスクで推奨される結果を報告します。
我々は、ポイントクラウド上でData2vecライクな事前トレーニングの可能性を解放するpoint2vecを提案する。
論文 参考訳(メタデータ) (2023-03-29T10:08:29Z) - Masked Autoencoders in 3D Point Cloud Representation Learning [7.617783375837524]
3Dポイントクラウド表現学習におけるマスク付きオートエンコーダを提案する(略してMAE3D)。
最初はインプットポイントクラウドをパッチに分割し、その一部をマスクし、次にPatch Embedding Moduleを使って未成熟のパッチの特徴を抽出しました。
総合的な実験により、ポイントクラウドパッチからMAE3Dによって抽出された局所的特徴が下流分類タスクに有用であることが示されている。
論文 参考訳(メタデータ) (2022-07-04T16:13:27Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z) - Point Cloud Pre-training by Mixing and Disentangling [35.18101910728478]
Mixing and Disentangling (MD)は、ポイントクラウド事前トレーニングのための自己教師付き学習アプローチである。
我々は,エンコーダ+我々の(MD)が,スクラッチから訓練したエンコーダを著しく上回り,迅速に収束することを示す。
この自己教師型学習によるポイントクラウドの試みが、大規模ラベル付きデータへの深い学習モデル依存を減らす道を開くことを願っている。
論文 参考訳(メタデータ) (2021-09-01T15:52:18Z) - SSPU-Net: Self-Supervised Point Cloud Upsampling via Differentiable
Rendering [21.563862632172363]
地中真理を使わずに高密度の点雲を生成するための自己教師付き点雲アップサンプリングネットワーク(SSPU-Net)を提案する。
これを実現するために,入力スパース点雲と高密度点雲との整合性を利用して画像の形状と描画を行う。
論文 参考訳(メタデータ) (2021-08-01T13:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。