論文の概要: CLIP-based Point Cloud Classification via Point Cloud to Image Translation
- arxiv url: http://arxiv.org/abs/2408.03545v1
- Date: Wed, 7 Aug 2024 04:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:53:42.516811
- Title: CLIP-based Point Cloud Classification via Point Cloud to Image Translation
- Title(参考訳): 画像翻訳のためのポイントクラウドによるCLIPベースのポイントクラウド分類
- Authors: Shuvozit Ghose, Manyi Li, Yiming Qian, Yang Wang,
- Abstract要約: Contrastive Vision-Language Pre-Training(CLIP)ベースのポイントクラウド分類モデル(PointCLIP)は、ポイントクラウド分類研究領域に新たな方向性を追加した。
本稿では,PPCITNet(Pretrained Point Cloud to Image Translation Network)を提案する。
- 参考スコア(独自算出の注目度): 19.836264118079573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point cloud understanding is an inherently challenging problem because of the sparse and unordered structure of the point cloud in the 3D space. Recently, Contrastive Vision-Language Pre-training (CLIP) based point cloud classification model i.e. PointCLIP has added a new direction in the point cloud classification research domain. In this method, at first multi-view depth maps are extracted from the point cloud and passed through the CLIP visual encoder. To transfer the 3D knowledge to the network, a small network called an adapter is fine-tuned on top of the CLIP visual encoder. PointCLIP has two limitations. Firstly, the point cloud depth maps lack image information which is essential for tasks like classification and recognition. Secondly, the adapter only relies on the global representation of the multi-view features. Motivated by this observation, we propose a Pretrained Point Cloud to Image Translation Network (PPCITNet) that produces generalized colored images along with additional salient visual cues to the point cloud depth maps so that it can achieve promising performance on point cloud classification and understanding. In addition, we propose a novel viewpoint adapter that combines the view feature processed by each viewpoint as well as the global intertwined knowledge that exists across the multi-view features. The experimental results demonstrate the superior performance of the proposed model over existing state-of-the-art CLIP-based models on ModelNet10, ModelNet40, and ScanobjectNN datasets.
- Abstract(参考訳): ポイントクラウドの理解は、3次元空間におけるポイントクラウドの希薄で非秩序な構造のため、本質的に難しい問題である。
近年,CLIPベースのポイントクラウド分類モデルであるPointCLIPでは,ポイントクラウド分類研究領域に新たな方向性が加えられている。
この方法では、まず点雲から多視点深度マップを抽出し、CLIPビジュアルエンコーダを通過する。
3D知識をネットワークに転送するには、CLIPビジュアルエンコーダ上にアダプタと呼ばれる小さなネットワークを微調整する。
PointCLIPには2つの制限がある。
まず、クラウドの深度マップには、分類や認識といったタスクに不可欠な画像情報がない。
第二に、アダプタはマルチビュー機能のグローバル表現にのみ依存する。
そこで本研究では,PPCITNet(Pretrained Point Cloud to Image Translation Network)を提案する。PPCITNet(Pretrained Point Cloud to Image Translation Network)は,PPCITNet(Pretrained Point Cloud to Image Translation Network)とPPCITNet(Pretrained Point Cloud to Image Translation Network)を併用することで,点クラウドの分類と理解における有望なパフォーマンスを実現する。
さらに,各視点で処理される視点特徴と,多視点特徴にまたがるグローバルな相互理解とを結合した視点適応器を提案する。
実験結果は,ModelNet10,ModelNet40,ScanobjectNNデータセット上の既存の最先端CLIPモデルよりも優れた性能を示す。
関連論文リスト
- HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation [106.09886920774002]
本稿では,HVDistillと呼ばれるハイブリッドビューに基づく知識蒸留フレームワークを提案する。
提案手法は,スクラッチからトレーニングしたベースラインに対して一貫した改善を実現し,既存のスキームを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-18T14:18:08Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z) - CP-Net: Contour-Perturbed Reconstruction Network for Self-Supervised
Point Cloud Learning [53.1436669083784]
本稿では,CP-Net(Contour-Perturbed Restruction Network)を提案する。
分類では、ModelNet40(92.5%の精度)とScanObjectNN(87.9%の精度)の完全教師付き手法で競合する結果を得る。
論文 参考訳(メタデータ) (2022-01-20T15:04:12Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - PnP-3D: A Plug-and-Play for 3D Point Clouds [38.05362492645094]
本稿では,既存ネットワークのポイントクラウドデータ解析における有効性を改善するために,プラグイン・アンド・プレイモジュール -3D を提案する。
アプローチを徹底的に評価するために,3つの標準的なクラウド分析タスクについて実験を行った。
本研究は,最先端の成果の達成に加えて,我々のアプローチのメリットを実証する包括的研究を提案する。
論文 参考訳(メタデータ) (2021-08-16T23:59:43Z) - Multi-scale Receptive Fields Graph Attention Network for Point Cloud
Classification [35.88116404702807]
MRFGATアーキテクチャはModelNet10とModelNet40データセットでテストされている。
その結果,形状分類作業における最先端性能が得られた。
論文 参考訳(メタデータ) (2020-09-28T13:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。