論文の概要: CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training
- arxiv url: http://arxiv.org/abs/2210.01055v1
- Date: Mon, 3 Oct 2022 16:13:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 16:00:31.864555
- Title: CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training
- Title(参考訳): CLIP2Point:イメージ深度事前トレーニングによるポイントクラウド分類へのCLIP転送
- Authors: Tianyu Huang, Bowen Dong, Yunhan Yang, Xiaoshui Huang, Rynson W.H.
Lau, Wanli Ouyang, Wangmeng Zuo
- Abstract要約: 3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
- 参考スコア(独自算出の注目度): 133.73217315714763
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pre-training across 3D vision and language remains under development because
of limited training data. Recent works attempt to transfer vision-language
pre-training models to 3D vision. PointCLIP converts point cloud data to
multi-view depth maps, adopting CLIP for shape classification. However, its
performance is restricted by the domain gap between rendered depth maps and
images, as well as the diversity of depth distributions. To address this issue,
we propose CLIP2Point, an image-depth pre-training method by contrastive
learning to transfer CLIP to the 3D domain, and adapt it to point cloud
classification. We introduce a new depth rendering setting that forms a better
visual effect, and then render 52,460 pairs of images and depth maps from
ShapeNet for pre-training. The pre-training scheme of CLIP2Point combines
cross-modality learning to enforce the depth features for capturing expressive
visual and textual features and intra-modality learning to enhance the
invariance of depth aggregation. Additionally, we propose a novel Dual-Path
Adapter (DPA) module, i.e., a dual-path structure with simplified adapters for
few-shot learning. The dual-path structure allows the joint use of CLIP and
CLIP2Point, and the simplified adapter can well fit few-shot tasks without
post-search. Experimental results show that CLIP2Point is effective in
transferring CLIP knowledge to 3D vision. Our CLIP2Point outperforms PointCLIP
and other self-supervised 3D networks, achieving state-of-the-art results on
zero-shot and few-shot classification.
- Abstract(参考訳): 3dビジョンと言語間の事前トレーニングは、トレーニングデータに制限があるため、まだ開発中である。
最近の研究は、視覚言語事前学習モデルを3d視覚に移すことを試みている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
しかし、その性能は、深度分布の多様性と同様に、深度マップと画像の間の領域ギャップによって制限されている。
この問題に対処するために,CLIPを3Dドメインに転送し,ポイントクラウド分類に適応させるために,コントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
視覚効果を向上する新しい深度レンダリング設定を導入し、事前学習のためにShapeNetから52,460枚の画像と深度マップを描画する。
CLIP2Pointの事前学習スキームは、モダリティ学習と、表現力のある視覚的特徴とテキスト的特徴を捉える深度特徴と、モダリティ内学習を組み合わせて、深度集約の不変性を高める。
さらに,新しいデュアルパスアダプタ(dpa)モジュールを提案する。
デュアルパス構造はクリップとクリップ2ポイントを共同使用することができ、簡易アダプタは検索後に必要とせずに、わずかなタスクに適合する。
実験の結果,CLIP2PointはCLIPの知識を3次元視覚に伝達するのに有効であることが示唆された。
私たちのCLIP2PointはPointCLIPや他の自己監督型3Dネットワークよりも優れており、ゼロショットと少数ショットの分類で最先端の結果が得られる。
関連論文リスト
- CLIP-based Point Cloud Classification via Point Cloud to Image Translation [19.836264118079573]
Contrastive Vision-Language Pre-Training(CLIP)ベースのポイントクラウド分類モデル(PointCLIP)は、ポイントクラウド分類研究領域に新たな方向性を追加した。
本稿では,PPCITNet(Pretrained Point Cloud to Image Translation Network)を提案する。
論文 参考訳(メタデータ) (2024-08-07T04:50:05Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning [40.28152121477885]
私たちはまず、CLIPとGPTを協力して、PointCLIP V2という名前の3Dオープンワールド学習者にしました。
PointCLIP V2は、ゼロショット3D分類、セグメンテーション、検出の可能性を完全に解放する。
我々のアプローチは、ゼロショット3D分類のための3つのデータセットにおいて、ポイントCLIPを+42.90%、+40.44%、+28.75%の精度で大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-21T17:52:43Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。