論文の概要: CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D
Recognition
- arxiv url: http://arxiv.org/abs/2303.11313v1
- Date: Mon, 20 Mar 2023 17:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 14:14:37.429571
- Title: CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D
Recognition
- Title(参考訳): CLIPが3Dに: 言語基底3D認識のためのプロンプトチューニングを活用する
- Authors: Deepti Hegde, Jeya Maria Jose Valanarasu, Vishal M. Patel
- Abstract要約: CG3D(CLIP Goes 3D)と呼ばれる新しいフレームワークを提案する。
我々は、事前学習したCG3Dフレームワークを広範囲にテストし、ゼロショット、オープンシーン理解、検索タスクにおいてその印象的な能力を実証した。
- 参考スコア(独自算出の注目度): 67.85902382734521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language models like CLIP have been widely adopted for various tasks
due to their impressive zero-shot capabilities. However, CLIP is not suitable
for extracting 3D geometric features as it was trained on only images and text
by natural language supervision. We work on addressing this limitation and
propose a new framework termed CG3D (CLIP Goes 3D) where a 3D encoder is
learned to exhibit zero-shot capabilities. CG3D is trained using triplets of
pointclouds, corresponding rendered 2D images, and texts using natural language
supervision. To align the features in a multimodal embedding space, we utilize
contrastive loss on 3D features obtained from the 3D encoder, as well as visual
and text features extracted from CLIP. We note that the natural images used to
train CLIP and the rendered 2D images in CG3D have a distribution shift.
Attempting to train the visual and text encoder to account for this shift
results in catastrophic forgetting and a notable decrease in performance. To
solve this, we employ prompt tuning and introduce trainable parameters in the
input space to shift CLIP towards the 3D pre-training dataset utilized in CG3D.
We extensively test our pre-trained CG3D framework and demonstrate its
impressive capabilities in zero-shot, open scene understanding, and retrieval
tasks. Further, it also serves as strong starting weights for fine-tuning in
downstream 3D recognition tasks.
- Abstract(参考訳): CLIPのようなビジョンランゲージモデルは、印象的なゼロショット機能のために、様々なタスクに広く採用されている。
しかし、CLIPは画像とテキストのみを自然言語の監督によって訓練したので、3次元幾何学的特徴の抽出には適していない。
我々は、この制限に対処し、3dエンコーダがゼロショット能力を発揮するように学習されるcg3d(clip goes 3d)と呼ばれる新しいフレームワークを提案する。
CG3Dは、点雲のトリプレット、対応する2D画像、自然言語の監督によるテキストを用いて訓練されている。
マルチモーダル埋め込み空間における特徴の整合を図るため、3Dエンコーダから得られた3D特徴と、CLIPから抽出した視覚的特徴とテキスト特徴の対比的損失を利用する。
CG3DにおけるCLIPの訓練に使用される自然な画像とレンダリングされた2D画像の分布シフトについて述べる。
視覚およびテキストエンコーダをトレーニングしてこのシフトを考慮しようとすると、破滅的な忘れ込みと顕著な性能低下が発生する。
そこで本研究では,cg3dで使用される3次元事前学習データセットにクリップをシフトするために,入力空間に学習可能なパラメータを導入する。
私たちは、トレーニング済みのcg3dフレームワークを広範囲にテストし、ゼロショット、オープンシーン理解、検索タスクでその印象的な能力を示しています。
さらに、下流の3D認識タスクを微調整するための強力なスタートウェイトとしても機能する。
関連論文リスト
- GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-25T17:12:08Z) - PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning [40.28152121477885]
私たちはまず、CLIPとGPTを協力して、PointCLIP V2という名前の3Dオープンワールド学習者にしました。
PointCLIP V2は、ゼロショット3D分類、セグメンテーション、検出の可能性を完全に解放する。
我々のアプローチは、ゼロショット3D分類のための3つのデータセットにおいて、ポイントCLIPを+42.90%、+40.44%、+28.75%の精度で大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。