論文の概要: TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding
- arxiv url: http://arxiv.org/abs/2402.18490v2
- Date: Tue, 2 Apr 2024 03:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 08:29:27.825447
- Title: TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding
- Title(参考訳): TAMM:3次元形状理解のためのTriAdapter Multi-Modal Learning
- Authors: Zhihao Zhang, Shengcao Cao, Yu-Xiong Wang,
- Abstract要約: TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。
TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
- 参考スコア(独自算出の注目度): 28.112402580426174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The limited scale of current 3D shape datasets hinders the advancements in 3D shape understanding, and motivates multi-modal learning approaches which transfer learned knowledge from data-abundant 2D image and language modalities to 3D shapes. However, even though the image and language representations have been aligned by cross-modal models like CLIP, we find that the image modality fails to contribute as much as the language in existing multi-modal 3D representation learning methods. This is attributed to the domain shift in the 2D images and the distinct focus of each modality. To more effectively leverage both modalities in the pre-training, we introduce TriAdapter Multi-Modal Learning (TAMM) -- a novel two-stage learning approach based on three synergistic adapters. First, our CLIP Image Adapter mitigates the domain gap between 3D-rendered images and natural images, by adapting the visual representations of CLIP for synthetic image-text pairs. Subsequently, our Dual Adapters decouple the 3D shape representation space into two complementary sub-spaces: one focusing on visual attributes and the other for semantic understanding, which ensure a more comprehensive and effective multi-modal pre-training. Extensive experiments demonstrate that TAMM consistently enhances 3D representations for a wide range of 3D encoder architectures, pre-training datasets, and downstream tasks. Notably, we boost the zero-shot classification accuracy on Objaverse-LVIS from 46.8\% to 50.7\%, and improve the 5-way 10-shot linear probing classification accuracy on ModelNet40 from 96.1\% to 99.0\%. Project page: https://alanzhangcs.github.io/tamm-page.
- Abstract(参考訳): 現在の3次元形状データセットの限られたスケールは、3次元形状理解の進歩を阻害し、データに基づく2次元画像と言語モダリティから3次元形状へ学習知識を伝達するマルチモーダル学習アプローチを動機付けている。
しかし,CLIPのようなクロスモーダルモデルでは画像表現と言語表現が一致しているが,既存のマルチモーダル3D表現学習手法では,画像モダリティが言語に匹敵しないことがわかった。
これは2次元画像の領域シフトと、各モダリティの異なる焦点に起因する。
事前学習における両方のモダリティをより効果的に活用するために,3つの相乗的アダプタに基づく新しい2段階学習手法であるTriAdapter Multi-Modal Learning (TAMM)を導入する。
まず、CLIP画像適応器は、合成画像テキスト対にCLIPの視覚的表現を適用することにより、3Dレンダリング画像と自然画像との領域ギャップを緩和する。
その後、我々のデュアルアダプタは3次元形状表現空間を2つの相補的な部分空間に分解し、一方は視覚的属性に焦点を当て、もう一方は意味理解に焦点をあて、より包括的で効果的なマルチモーダル事前学習を確実にする。
大規模な実験では、TAMMは広範囲の3Dエンコーダアーキテクチャ、事前学習データセット、下流タスクの3D表現を一貫して強化している。
特に,Objaverse-LVISのゼロショット分類精度を46.8\%から50.7\%に引き上げ,ModelNet40の5ウェイ10ショット線形探索分類精度を96.1\%から99.0\%に改善した。
プロジェクトページ: https://alanzhangcs.github.io/tamm-page
関連論文リスト
- Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。