論文の概要: PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning
- arxiv url: http://arxiv.org/abs/2211.11682v2
- Date: Sat, 26 Aug 2023 16:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 01:14:40.467941
- Title: PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning
- Title(参考訳): PointCLIP V2: 強力な3Dオープンワールド学習のためのCLIPとGPTの実証
- Authors: Xiangyang Zhu, Renrui Zhang, Bowei He, Ziyu Guo, Ziyao Zeng, Zipeng
Qin, Shanghang Zhang, Peng Gao
- Abstract要約: 私たちはまず、CLIPとGPTを協力して、PointCLIP V2という名前の3Dオープンワールド学習者にしました。
PointCLIP V2は、ゼロショット3D分類、セグメンテーション、検出の可能性を完全に解放する。
我々のアプローチは、ゼロショット3D分類のための3つのデータセットにおいて、ポイントCLIPを+42.90%、+40.44%、+28.75%の精度で大幅に上回っている。
- 参考スコア(独自算出の注目度): 40.28152121477885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained models have shown promising open-world performance
for both vision and language tasks. However, their transferred capacity on 3D
point clouds is still limited and only constrained to the classification task.
In this paper, we first collaborate CLIP and GPT to be a unified 3D open-world
learner, named as PointCLIP V2, which fully unleashes their potential for
zero-shot 3D classification, segmentation, and detection. To better align 3D
data with the pre-trained language knowledge, PointCLIP V2 contains two key
designs. For the visual end, we prompt CLIP via a shape projection module to
generate more realistic depth maps, narrowing the domain gap between projected
point clouds with natural images. For the textual end, we prompt the GPT model
to generate 3D-specific text as the input of CLIP's textual encoder. Without
any training in 3D domains, our approach significantly surpasses PointCLIP by
+42.90%, +40.44%, and +28.75% accuracy on three datasets for zero-shot 3D
classification. On top of that, V2 can be extended to few-shot 3D
classification, zero-shot 3D part segmentation, and 3D object detection in a
simple manner, demonstrating our generalization ability for unified 3D
open-world learning.
- Abstract(参考訳): 大規模な事前学習されたモデルは、視覚と言語の両方のタスクで有望なオープンワールドパフォーマンスを示している。
しかし、3Dポイントクラウド上の転送容量はまだ制限されており、分類タスクのみに制限されている。
本稿では,まずCLIPとGPTを共同で,PointCLIP V2という名前の3Dオープンワールド学習者として,ゼロショット3D分類,セグメンテーション,検出の可能性を完全に解放する。
3Dデータを事前訓練された言語知識と整合させるため、PointCLIP V2には2つの重要な設計が含まれている。
視覚的には、形状投影モジュールを介してCLIPに、より現実的な深度マップを生成し、投影された点雲間の領域ギャップを自然な画像で絞り込む。
テキストの最後には,CLIPのテキストエンコーダの入力として,GPTモデルに3D固有のテキストを生成するように促す。
3D領域でのトレーニングがなければ、この手法はポイントCLIPを+42.90%、+40.44%、+28.75%の精度でゼロショットの3D分類を行うことができる。
それに加えて、v2は、少数の3d分類、ゼロショット3d部分セグメンテーション、および3dオブジェクト検出に簡単な方法で拡張することができ、統一3dオープンワールド学習の一般化能力を示しています。
関連論文リスト
- Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。