論文の概要: ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding
- arxiv url: http://arxiv.org/abs/2212.05171v4
- Date: Mon, 12 Jun 2023 19:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 18:04:59.984200
- Title: ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding
- Title(参考訳): ulip: 3d理解のための言語,イメージ,ポイントクラウドの統一表現の学習
- Authors: Le Xue, Mingfei Gao, Chen Xing, Roberto Mart\'in-Mart\'in, Jiajun Wu,
Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese
- Abstract要約: 現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
- 参考スコア(独自算出の注目度): 110.07170245531464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recognition capabilities of current state-of-the-art 3D models are
limited by datasets with a small number of annotated data and a pre-defined set
of categories. In its 2D counterpart, recent advances have shown that similar
problems can be significantly alleviated by employing knowledge from other
modalities, such as language. Inspired by this, leveraging multimodal
information for 3D modality could be promising to improve 3D understanding
under the restricted data regime, but this line of research is not well
studied. Therefore, we introduce ULIP to learn a unified representation of
images, texts, and 3D point clouds by pre-training with object triplets from
the three modalities. To overcome the shortage of training triplets, ULIP
leverages a pre-trained vision-language model that has already learned a common
visual and textual space by training with massive image-text pairs. Then, ULIP
learns a 3D representation space aligned with the common image-text space,
using a small number of automatically synthesized triplets. ULIP is agnostic to
3D backbone networks and can easily be integrated into any 3D architecture.
Experiments show that ULIP effectively improves the performance of multiple
recent 3D backbones by simply pre-training them on ShapeNet55 using our
framework, achieving state-of-the-art performance in both standard 3D
classification and zero-shot 3D classification on ModelNet40 and ScanObjectNN.
ULIP also improves the performance of PointMLP by around 3% in 3D
classification on ScanObjectNN, and outperforms PointCLIP by 28.8% on top-1
accuracy for zero-shot 3D classification on ModelNet40. Our code and
pre-trained models are released at https://github.com/salesforce/ULIP.
- Abstract(参考訳): 現在の最先端の3dモデルの認識能力は、少数の注釈付きデータと予め定義されたカテゴリのデータセットによって制限されている。
最近の2Dの進歩は、言語などの他のモダリティからの知識を利用することで、同様の問題を著しく軽減できることを示している。
このことから、3Dモダリティにマルチモーダル情報を活用することで、制限されたデータ体制下での3D理解を改善することが期待できるが、この研究は十分に研究されていない。
そこで,3つのモードからオブジェクト三重項を事前学習することで,画像,テキスト,3次元点雲の統一表現を学習するためにULIPを導入する。
トレーニングトリプレットの不足を克服するために、ulipは、大量の画像テキストペアでトレーニングすることで、すでに共通の視覚空間とテキスト空間を学習した、事前訓練されたビジョン言語モデルを活用する。
そして、ULIPは、少数の自動合成三重項を用いて、共通画像テキスト空間と整合した3次元表現空間を学習する。
ULIPは3Dバックボーンネットワークとは無関係であり、どんな3Dアーキテクチャにも容易に統合できる。
実験により,本フレームワークを用いたShapeNet55の事前学習により,ModelNet40およびScanObjectNNの標準3D分類とゼロショット3D分類の両面での最先端性能を実現することにより,最近の複数の3Dバックボーンの性能を効果的に向上することが示された。
ULIPはまた、ScanObjectNNの3D分類ではポイントMLPを約3%改善し、ModelNet40のゼロショット3D分類ではトップ1の精度でポイントCLIPを28.8%上回っている。
私たちのコードと事前トレーニングされたモデルはhttps://github.com/salesforce/ULIP.comでリリースされています。
関連論文リスト
- TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。
TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文 参考訳(メタデータ) (2024-02-28T17:18:38Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。