論文の概要: PointCLIP: Point Cloud Understanding by CLIP
- arxiv url: http://arxiv.org/abs/2112.02413v1
- Date: Sat, 4 Dec 2021 19:42:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 14:58:13.237367
- Title: PointCLIP: Point Cloud Understanding by CLIP
- Title(参考訳): PointCLIP: CLIPによるポイントクラウド理解
- Authors: Renrui Zhang, Ziyu Guo, Wei Zhang, Kunchang Li, Xupeng Miao, Bin Cui,
Yu Qiao, Peng Gao, Hongsheng Li
- Abstract要約: 本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
- 参考スコア(独自算出の注目度): 77.02399444893963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, zero-shot and few-shot learning via Contrastive Vision-Language
Pre-training (CLIP) have shown inspirational performance on 2D visual
recognition, which learns to match images with their corresponding texts in
open-vocabulary settings. However, it remains under explored that whether CLIP,
pre-trained by large-scale image-text pairs in 2D, can be generalized to 3D
recognition. In this paper, we identify such a setting is feasible by proposing
PointCLIP, which conducts alignment between CLIP-encoded point cloud and 3D
category texts. Specifically, we encode a point cloud by projecting it into
multi-view depth maps without rendering, and aggregate the view-wise zero-shot
prediction to achieve knowledge transfer from 2D to 3D. On top of that, we
design an inter-view adapter to better extract the global feature and
adaptively fuse the few-shot knowledge learned from 3D into CLIP pre-trained in
2D. By just fine-tuning the lightweight adapter in the few-shot settings, the
performance of PointCLIP could be largely improved. In addition, we observe the
complementary property between PointCLIP and classical 3D-supervised networks.
By simple ensembling, PointCLIP boosts baseline's performance and even
surpasses state-of-the-art models. Therefore, PointCLIP is a promising
alternative for effective 3D point cloud understanding via CLIP under low
resource cost and data regime. We conduct thorough experiments on
widely-adopted ModelNet10, ModelNet40 and the challenging ScanObjectNN to
demonstrate the effectiveness of PointCLIP. The code is released at
https://github.com/ZrrSkywalker/PointCLIP.
- Abstract(参考訳): 近年,コントラストヴィジョン言語事前学習(clip)によるゼロショットとマイショット学習は,オープンボキャブラリー設定で画像と対応するテキストとのマッチングを学習する2次元視覚認識において,着想的なパフォーマンスを示している。
しかし,2次元の大規模画像テキストペアによって事前訓練されたCLIPが,3次元認識に一般化できるかどうかについては,まだ検討されていない。
本稿では,CLIP符号化点雲と3Dカテゴリテキストのアライメントを行うPointCLIPを提案することにより,そのような設定が実現可能であることを示す。
具体的には、レンダリングせずに多視点深度マップに投影してポイントクラウドを符号化し、2Dから3Dへの知識伝達を実現するために、ビューワイズゼロショット予測を集約する。
さらに,3Dから学んだ少数の知識を2Dで事前学習したCLIPに適応的に融合させる,ビュー間アダプタを設計する。
数ショット設定で軽量アダプタを微調整するだけで、PointCLIPのパフォーマンスが大幅に向上する可能性がある。
さらに、PointCLIPと古典的な3D教師ネットワーク間の補完特性を観察する。
単純なアンサンブルにより、PointCLIPはベースラインのパフォーマンスを向上し、最先端モデルを超えます。
したがって、PointCLIPはリソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための有望な代替手段である。
我々は、広く採用されているModelNet10、ModelNet40、そしてPointCLIPの有効性を実証するために、ScanObjectNNの徹底的な実験を行う。
コードはhttps://github.com/zrrskywalker/pointclipでリリースされる。
関連論文リスト
- CLIP-based Point Cloud Classification via Point Cloud to Image Translation [19.836264118079573]
Contrastive Vision-Language Pre-Training(CLIP)ベースのポイントクラウド分類モデル(PointCLIP)は、ポイントクラウド分類研究領域に新たな方向性を追加した。
本稿では,PPCITNet(Pretrained Point Cloud to Image Translation Network)を提案する。
論文 参考訳(メタデータ) (2024-08-07T04:50:05Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning [40.28152121477885]
私たちはまず、CLIPとGPTを協力して、PointCLIP V2という名前の3Dオープンワールド学習者にしました。
PointCLIP V2は、ゼロショット3D分類、セグメンテーション、検出の可能性を完全に解放する。
我々のアプローチは、ゼロショット3D分類のための3つのデータセットにおいて、ポイントCLIPを+42.90%、+40.44%、+28.75%の精度で大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-21T17:52:43Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。