論文の概要: MV-CLIP: Multi-View CLIP for Zero-shot 3D Shape Recognition
- arxiv url: http://arxiv.org/abs/2311.18402v3
- Date: Wed, 11 Sep 2024 12:21:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 22:03:32.447303
- Title: MV-CLIP: Multi-View CLIP for Zero-shot 3D Shape Recognition
- Title(参考訳): MV-CLIP:ゼロショット3次元形状認識のためのマルチビューCLIP
- Authors: Dan Song, Xinwei Fu, Ning Liu, Weizhi Nie, Wenhui Li, Lanjun Wang, You Yang, Anan Liu,
- Abstract要約: 大規模な事前訓練モデルでは、オープンワールドシナリオにおける視覚と言語タスクのパフォーマンスが著しく向上している。
近年の手法では、ゼロショット3次元形状認識を実現するために、言語画像事前学習を採用している。
本稿では、ビュー選択と階層的プロンプトによる信頼性の向上を目的とする。
- 参考スコア(独自算出の注目度): 49.52436478739151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained models have demonstrated impressive performance in vision and language tasks within open-world scenarios. Due to the lack of comparable pre-trained models for 3D shapes, recent methods utilize language-image pre-training to realize zero-shot 3D shape recognition. However, due to the modality gap, pretrained language-image models are not confident enough in the generalization to 3D shape recognition. Consequently, this paper aims to improve the confidence with view selection and hierarchical prompts. Leveraging the CLIP model as an example, we employ view selection on the vision side by identifying views with high prediction confidence from multiple rendered views of a 3D shape. On the textual side, the strategy of hierarchical prompts is proposed for the first time. The first layer prompts several classification candidates with traditional class-level descriptions, while the second layer refines the prediction based on function-level descriptions or further distinctions between the candidates. Remarkably, without the need for additional training, our proposed method achieves impressive zero-shot 3D classification accuracies of 84.44%, 91.51%, and 66.17% on ModelNet40, ModelNet10, and ShapeNet Core55, respectively. Furthermore, we will make the code publicly available to facilitate reproducibility and further research in this area.
- Abstract(参考訳): 大規模な事前訓練モデルでは、オープンワールドシナリオにおける視覚と言語タスクのパフォーマンスが著しく向上している。
近年,3次元形状に対する事前学習モデルが不足しているため,ゼロショット3次元形状認識を実現するために言語画像事前学習が用いられている。
しかし、モダリティギャップのため、事前訓練された言語画像モデルは3次元形状認識への一般化に十分な自信を持っていない。
そこで本稿は、ビュー選択と階層的プロンプトによる信頼性の向上を目的としている。
例として、CLIPモデルを応用し、3次元形状の複数の描画されたビューから高い予測信頼度を持つビューを識別することにより、視覚面のビュー選択を採用する。
テキスト側では、階層的なプロンプトの戦略が初めて提案される。
第1の層は、いくつかの分類候補に伝統的なクラスレベルの記述を与え、第2の層は、関数レベルの記述や候補間のさらなる区別に基づいて予測を洗練させる。
ここでは,ModelNet40,ModelNet10,ShapeNet Core55でそれぞれ84.44%,91.51%,66.17%のゼロショット3D分類精度を達成した。
さらに、この領域の再現性やさらなる研究を容易にするために、コードを公開します。
関連論文リスト
- Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - CLIPose: Category-Level Object Pose Estimation with Pre-trained
Vision-Language Knowledge [18.57081150228812]
本稿では、事前学習された視覚言語モデルを用いて、オブジェクトカテゴリ情報の学習を改善する新しい6Dポーズフレームワークを提案する。
CLIPoseは、2つの主要なベンチマークデータセットであるREAL275とCAMERA25で最先端のパフォーマンスを達成し、推論中(40FPS)にリアルタイムに実行される。
論文 参考訳(メタデータ) (2024-02-24T05:31:53Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - OpenShape: Scaling Up 3D Shape Representation Towards Open-World
Understanding [53.21204584976076]
我々は,テキスト,画像,点雲のマルチモーダルな共同表現を学習するOpenShapeを紹介する。
複数の3Dデータセットをアンサンブルすることで、トレーニングデータをスケールアップし、ノイズの多いテキスト記述を自動的にフィルタリングし、強化するためのいくつかの戦略を提案する。
ゼロショット3D分類ベンチマークでOpenShapeを評価し,オープンワールド認識の優れた能力を実証した。
論文 参考訳(メタデータ) (2023-05-18T07:07:19Z) - CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D
Dense CLIP [19.66617835750012]
3Dシーン理解モデルのトレーニングには、複雑な人間のアノテーションが必要である。
視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。
本稿では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。
論文 参考訳(メタデータ) (2023-03-08T17:30:58Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - Planes vs. Chairs: Category-guided 3D shape learning without any 3D cues [42.59825584255742]
単一のRGB画像から暗黙的な3次元形状表現を学習する新しい3次元形状再構成法を提案する。
提案手法では、視点アノテーションを使わずに、複数のオブジェクトカテゴリの単一ビューイメージのセットを使用する。
単視点教師あり3次元形状復元におけるクラス情報の利点を初めて検証し,定量化する。
論文 参考訳(メタデータ) (2022-04-21T16:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。