論文の概要: DiffCLIP: Leveraging Stable Diffusion for Language Grounded 3D Classification
- arxiv url: http://arxiv.org/abs/2305.15957v3
- Date: Mon, 6 May 2024 16:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 01:26:19.621549
- Title: DiffCLIP: Leveraging Stable Diffusion for Language Grounded 3D Classification
- Title(参考訳): DiffCLIP: 言語基底3次元分類のための安定拡散の活用
- Authors: Sitian Shen, Zilin Zhu, Linqian Fan, Harry Zhang, Xinxiao Wu,
- Abstract要約: 本稿では、視覚枝の領域ギャップを最小限に抑えるために、制御ネットとの安定拡散を取り入れた新しい事前学習フレームワークであるDiffCLIPを提案する。
ModelNet10、ModelNet40、ScanObjectNNデータセットの実験は、DiffCLIPが3D理解に強力な能力を持っていることを示している。
- 参考スコア(独自算出の注目度): 19.40810553327253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained models have had a significant impact on computer vision by enabling multi-modal learning, where the CLIP model has achieved impressive results in image classification, object detection, and semantic segmentation. However, the model's performance on 3D point cloud processing tasks is limited due to the domain gap between depth maps from 3D projection and training images of CLIP. This paper proposes DiffCLIP, a new pre-training framework that incorporates stable diffusion with ControlNet to minimize the domain gap in the visual branch. Additionally, a style-prompt generation module is introduced for few-shot tasks in the textual branch. Extensive experiments on the ModelNet10, ModelNet40, and ScanObjectNN datasets show that DiffCLIP has strong abilities for 3D understanding. By using stable diffusion and style-prompt generation, DiffCLIP achieves an accuracy of 43.2\% for zero-shot classification on OBJ\_BG of ScanObjectNN, which is state-of-the-art performance, and an accuracy of 80.6\% for zero-shot classification on ModelNet10, which is comparable to state-of-the-art performance.
- Abstract(参考訳): 大規模な事前学習モデルはマルチモーダル学習を可能にし、CLIPモデルは画像分類、オブジェクト検出、セマンティックセグメンテーションにおいて印象的な結果を得た。
しかし、3Dポイントクラウド処理タスクにおけるモデルの性能は、3Dプロジェクションからの深度マップとCLIPのトレーニングイメージとのドメインギャップによって制限されている。
本稿では、視覚枝の領域ギャップを最小限に抑えるために、制御ネットとの安定拡散を取り入れた新しい事前学習フレームワークであるDiffCLIPを提案する。
さらに、スタイルプロンプト生成モジュールは、テキストブランチで数ショットのタスクに対して導入された。
ModelNet10、ModelNet40、ScanObjectNNデータセットに関する大規模な実験は、DiffCLIPが3D理解に強力な能力を持っていることを示している。
安定した拡散とスタイルプロンプト生成により、DiffCLIPは、最先端性能であるScanObjectNNのOBJ\_BGにおけるゼロショット分類の精度43.2\%、最先端性能のModelNet10におけるゼロショット分類の精度80.6\%を達成する。
関連論文リスト
- CLIPose: Category-Level Object Pose Estimation with Pre-trained
Vision-Language Knowledge [18.57081150228812]
本稿では、事前学習された視覚言語モデルを用いて、オブジェクトカテゴリ情報の学習を改善する新しい6Dポーズフレームワークを提案する。
CLIPoseは、2つの主要なベンチマークデータセットであるREAL275とCAMERA25で最先端のパフォーマンスを達成し、推論中(40FPS)にリアルタイムに実行される。
論文 参考訳(メタデータ) (2024-02-24T05:31:53Z) - MV-CLIP: Multi-View CLIP for Zero-shot 3D Shape Recognition [49.52436478739151]
大規模な事前訓練モデルでは、オープンワールドシナリオにおける視覚と言語タスクのパフォーマンスが著しく向上している。
近年の手法では、ゼロショット3次元形状認識を実現するために、言語画像事前学習を採用している。
本稿では、ビュー選択と階層的プロンプトによる信頼性の向上を目的とする。
論文 参考訳(メタデータ) (2023-11-30T09:51:53Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z) - Learning Compositional Shape Priors for Few-Shot 3D Reconstruction [36.40776735291117]
複雑なエンコーダ・デコーダアーキテクチャが,カテゴリごとの大量のデータを利用することを示す。
データから直接クラス固有のグローバルな形状を学習する3つの方法を提案する。
人気のShapeNetデータセットの実験から,本手法はゼロショットベースラインを40%以上上回る性能を示した。
論文 参考訳(メタデータ) (2021-06-11T14:55:49Z) - Point Transformer for Shape Classification and Retrieval of 3D and ALS
Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。
モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。
提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2020-11-08T08:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。