論文の概要: EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder
- arxiv url: http://arxiv.org/abs/2212.04098v3
- Date: Sun, 10 Dec 2023 16:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 03:20:49.382617
- Title: EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder
- Title(参考訳): EPCL: Frozen CLIP Transformerは効率的なポイントクラウドエンコーダ
- Authors: Xiaoshui Huang, Zhou Huang, Sheng Li, Wentao Qu, Tong He, Yuenan Hou,
Yifan Zuo, Wanli Ouyang
- Abstract要約: 本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
- 参考スコア(独自算出の注目度): 60.52613206271329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pretrain-finetune paradigm has achieved great success in NLP and 2D image
fields because of the high-quality representation ability and transferability
of their pretrained models. However, pretraining such a strong model is
difficult in the 3D point cloud field due to the limited amount of point cloud
sequences. This paper introduces \textbf{E}fficient \textbf{P}oint
\textbf{C}loud \textbf{L}earning (EPCL), an effective and efficient point cloud
learner for directly training high-quality point cloud models with a frozen
CLIP transformer. Our EPCL connects the 2D and 3D modalities by semantically
aligning the image features and point cloud features without paired 2D-3D data.
Specifically, the input point cloud is divided into a series of local patches,
which are converted to token embeddings by the designed point cloud tokenizer.
These token embeddings are concatenated with a task token and fed into the
frozen CLIP transformer to learn point cloud representation. The intuition is
that the proposed point cloud tokenizer projects the input point cloud into a
unified token space that is similar to the 2D images. Comprehensive experiments
on 3D detection, semantic segmentation, classification and few-shot learning
demonstrate that the CLIP transformer can serve as an efficient point cloud
encoder and our method achieves promising performance on both indoor and
outdoor benchmarks. In particular, performance gains brought by our EPCL are
$\textbf{19.7}$ AP$_{50}$ on ScanNet V2 detection, $\textbf{4.4}$ mIoU on S3DIS
segmentation and $\textbf{1.2}$ mIoU on SemanticKITTI segmentation compared to
contemporary pretrained models. Code is available at
\url{https://github.com/XiaoshuiHuang/EPCL}.
- Abstract(参考訳): プリトレイン・フィニチューン・パラダイムは、高品質な表現能力とトレーニング済みモデルの転送性により、nlpと2d画像の分野で大きな成功を収めている。
しかし,3次元点雲場において,このような強いモデルの事前学習は,点雲列の限られた量のため困難である。
本稿では, 凍結したCLIP変換器を用いて高品質のクラウドモデルを直接学習する, 効率的かつ効率的なポイントクラウド学習者である \textbf{E}fficient \textbf{P}oint \textbf{C}loud \textbf{L}earning (EPCL) を紹介する。
我々のEPCLは、2D-3Dデータなしで画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
具体的には、入力ポイントクラウドは一連のローカルパッチに分割され、設計されたpoint cloud tokenizerによってトークン埋め込みに変換される。
これらのトークン埋め込みはタスクトークンと結合され、ポイントクラウド表現を学ぶために凍ったクリップトランスフォーマーに供給される。
直感的には、提案されたpoint cloud tokenizerは入力ポイントクラウドを2dイメージに似た統一トークン空間に投影する。
3次元検出,セマンティックセグメンテーション,分類,少数ショット学習に関する総合的な実験により,CLIPトランスフォーマーが効率的なポイントクラウドエンコーダとして機能し,室内および屋外のベンチマークで有望な性能を達成することを示す。
特に、epclがもたらしたパフォーマンス向上は、scannet v2検出で$\textbf{19.7}$ ap$_{50}$、s3disセグメンテーションで$\textbf{4.4}$ miou、semantickittiセグメンテーションで$\textbf{1.2}$ miouです。
コードは \url{https://github.com/xiaoshuihuang/epcl} で入手できる。
関連論文リスト
- P2P-Bridge: Diffusion Bridges for 3D Point Cloud Denoising [81.92854168911704]
私たちは、Diffusion Schr"odingerブリッジをポイントクラウドに適応させる新しいフレームワークを通じて、ポイントクラウドを飾るタスクに取り組みます。
オブジェクトデータセットの実験では、P2P-Bridgeは既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-08-29T08:00:07Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - PRED: Pre-training via Semantic Rendering on LiDAR Point Clouds [18.840000859663153]
本稿では,屋外点雲のための画像支援事前学習フレームワークPreDを提案する。
我々のフレームワークの主な構成要素は、Birds-Eye-View (BEV) 機能マップ条件付きセマンティックレンダリングである。
我々は、高マスキング比のポイントワイドマスクを組み込むことにより、モデルの性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-11-08T07:26:09Z) - 2D-3D Interlaced Transformer for Point Cloud Segmentation with
Scene-Level Supervision [36.282611420496416]
本稿では,2つのエンコーダと1つのデコーダを備えた変圧器モデルを提案する。
デコーダは2D-3Dクロスアテンションを実装し、暗黙の2Dおよび3D特徴融合を実行する。
実験により、既存の弱教師付きポイントクラウドセグメンテーション法に対して好適に動作することが示された。
論文 参考訳(メタデータ) (2023-10-19T15:12:44Z) - Point2Vec for Self-Supervised Representation Learning on Point Clouds [66.53955515020053]
Data2vecをポイントクラウド領域に拡張し、いくつかのダウンストリームタスクで推奨される結果を報告します。
我々は、ポイントクラウド上でData2vecライクな事前トレーニングの可能性を解放するpoint2vecを提案する。
論文 参考訳(メタデータ) (2023-03-29T10:08:29Z) - Masked Autoencoders in 3D Point Cloud Representation Learning [7.617783375837524]
3Dポイントクラウド表現学習におけるマスク付きオートエンコーダを提案する(略してMAE3D)。
最初はインプットポイントクラウドをパッチに分割し、その一部をマスクし、次にPatch Embedding Moduleを使って未成熟のパッチの特徴を抽出しました。
総合的な実験により、ポイントクラウドパッチからMAE3Dによって抽出された局所的特徴が下流分類タスクに有用であることが示されている。
論文 参考訳(メタデータ) (2022-07-04T16:13:27Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z) - Point Cloud Pre-training by Mixing and Disentangling [35.18101910728478]
Mixing and Disentangling (MD)は、ポイントクラウド事前トレーニングのための自己教師付き学習アプローチである。
我々は,エンコーダ+我々の(MD)が,スクラッチから訓練したエンコーダを著しく上回り,迅速に収束することを示す。
この自己教師型学習によるポイントクラウドの試みが、大規模ラベル付きデータへの深い学習モデル依存を減らす道を開くことを願っている。
論文 参考訳(メタデータ) (2021-09-01T15:52:18Z) - SSPU-Net: Self-Supervised Point Cloud Upsampling via Differentiable
Rendering [21.563862632172363]
地中真理を使わずに高密度の点雲を生成するための自己教師付き点雲アップサンプリングネットワーク(SSPU-Net)を提案する。
これを実現するために,入力スパース点雲と高密度点雲との整合性を利用して画像の形状と描画を行う。
論文 参考訳(メタデータ) (2021-08-01T13:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。