論文の概要: PointCLIP V2: Adapting CLIP for Powerful 3D Open-world Learning
- arxiv url: http://arxiv.org/abs/2211.11682v1
- Date: Mon, 21 Nov 2022 17:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:25:45.344271
- Title: PointCLIP V2: Adapting CLIP for Powerful 3D Open-world Learning
- Title(参考訳): PointCLIP V2: 強力な3Dオープンワールド学習のためのCLIP適応
- Authors: Xiangyang Zhu, Renrui Zhang, Bowei He, Ziyao Zeng, Shanghang Zhang,
Peng Gao
- Abstract要約: 対照的に、CLIP(Contrastive Language- Image Pre-Training)は、2Dイメージタスクにおいて有望なオープンワールドパフォーマンスを示している。
我々は,強力な3Dオープンワールド学習者であるPointCLIP V2を提案し,CLIPの可能性を3Dポイントクラウドデータ上で完全に解き放つ。
- 参考スコア(独自算出の注目度): 21.187029009323272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has shown promising open-world
performance on 2D image tasks, while its transferred capacity on 3D point
clouds, i.e., PointCLIP, is still far from satisfactory. In this work, we
propose PointCLIP V2, a powerful 3D open-world learner, to fully unleash the
potential of CLIP on 3D point cloud data. First, we introduce a realistic shape
projection module to generate more realistic depth maps for CLIP's visual
encoder, which is quite efficient and narrows the domain gap between projected
point clouds with natural images. Second, we leverage large-scale language
models to automatically design a more descriptive 3D-semantic prompt for CLIP's
textual encoder, instead of the previous hand-crafted one. Without introducing
any training in 3D domains, our approach significantly surpasses PointCLIP by
+42.90%, +40.44%, and +28.75% accuracy on three datasets for zero-shot 3D
classification. Furthermore, PointCLIP V2 can be extended to few-shot
classification, zero-shot part segmentation, and zero-shot 3D object detection
in a simple manner, demonstrating our superior generalization ability for 3D
open-world learning. Code will be available at
https://github.com/yangyangyang127/PointCLIP_V2.
- Abstract(参考訳): 対照的な言語イメージプリトレーニング(clip)では、2dイメージタスクでのオープンワールドのパフォーマンスが期待できるが、3dポイントクラウド上の転送能力、すなわちpointclipは、まだ満足できるレベルには程遠い。
本研究では,3dクラウド上のクリップの可能性を完全に解き放つために,強力な3dオープンワールド学習ツールであるpointclip v2を提案する。
まず,CLIPのビジュアルエンコーダのよりリアルな深度マップを生成するために,現実的な形状投影モジュールを導入する。
第2に,CLIPのテキストエンコーダに対して,より記述性の高い3Dセマンティックプロンプトを設計するために,大規模言語モデルを活用する。
3dドメインにトレーニングを導入することなく、ゼロショット3d分類のための3つのデータセットでpointclipを+42.90%、+40.44%、+28.75%の精度で大幅に上回っている。
さらに、PointCLIP V2は、簡単な方法で、少数ショット分類、ゼロショット部分分割、ゼロショット3Dオブジェクト検出に拡張することができ、3次元オープンワールド学習における優れた一般化能力を示すことができる。
コードはhttps://github.com/yangyangyang127/PointCLIP_V2で入手できる。
関連論文リスト
- Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。