論文の概要: CLIP^2: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data
- arxiv url: http://arxiv.org/abs/2303.12417v1
- Date: Wed, 22 Mar 2023 09:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 14:34:21.145179
- Title: CLIP^2: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data
- Title(参考訳): CLIP^2: 実世界のクラウドデータからのコントラスト言語イメージポイント事前学習
- Authors: Yihan Zeng, Chenhan Jiang, Jiageng Mao, Jianhua Han, Chaoqiang Ye,
Qingqiu Huang, Dit-Yan Yeung, Zhen Yang, Xiaodan Liang, Hang Xu
- Abstract要約: 現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP2)を提案する。
具体的には、2Dおよび3Dシナリオにおいて、自然に存在する対応を利用して、整列されたインスタンスベースのテキストイメージポイントプロキシを構築する。
学習した3D表現は、ゼロショットや少数ショットの3D認識を含む下流タスクにおいて大きな伝達能力を持つ。
- 参考スコア(独自算出の注目度): 80.42480679542697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pre-training, benefiting from large-scale
unlabeled text-image pairs, has demonstrated great performance in open-world
vision understanding tasks. However, due to the limited Text-3D data pairs,
adapting the success of 2D Vision-Language Models (VLM) to the 3D space remains
an open problem. Existing works that leverage VLM for 3D understanding
generally resort to constructing intermediate 2D representations for the 3D
data, but at the cost of losing 3D geometry information. To take a step toward
open-world 3D vision understanding, we propose Contrastive Language-Image-Point
Cloud Pretraining (CLIP^2) to directly learn the transferable 3D point cloud
representation in realistic scenarios with a novel proxy alignment mechanism.
Specifically, we exploit naturally-existed correspondences in 2D and 3D
scenarios, and build well-aligned and instance-based text-image-point proxies
from those complex scenarios. On top of that, we propose a cross-modal
contrastive objective to learn semantic and instance-level aligned point cloud
representation. Experimental results on both indoor and outdoor scenarios show
that our learned 3D representation has great transfer ability in downstream
tasks, including zero-shot and few-shot 3D recognition, which boosts the
state-of-the-art methods by large margins. Furthermore, we provide analyses of
the capability of different representations in real scenarios and present the
optional ensemble scheme.
- Abstract(参考訳): 大規模な未ラベルのテキストイメージペアの恩恵を受けるコントラスト言語-画像事前学習は、オープンワールドの視覚理解タスクにおいて優れたパフォーマンスを示している。
しかし、テキスト3Dデータペアが限られているため、VLM(2D Vision-Language Models)の成功を3D空間に適用することは未解決の問題である。
3d理解にvlmを利用する既存の作品は、一般的には3dデータの中間的な2d表現を構築するが、3dジオメトリ情報を失うコストがかかる。
オープンワールドの3dビジョン理解に向けて、新しいプロキシアライメント機構を用いて、現実のシナリオで転送可能な3dポイントクラウド表現を直接学習するために、コントラスト型言語-イメージポイントクラウドプリトレーニング(clip^2)を提案する。
具体的には、自然に存在する2dおよび3dシナリオの対応を活用し、これらの複雑なシナリオから、適切に整合し、インスタンスベースのテキストイメージポイントプロキシを構築する。
さらに,セマンティクスとインスタンスレベルのアラインポイントクラウド表現を学ぶための,クロスモーダルなコントラスト目標を提案する。
室内および屋外の両方のシナリオにおける実験結果から、学習した3D表現は、ゼロショットや少数ショットの3D認識を含む下流タスクにおいて大きな伝達能力を持つことが示された。
さらに,実シナリオにおける異なる表現の能力の分析を行い,オプショナルアンサンブルスキームを提案する。
関連論文リスト
- Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labeling [9.440800948514449]
視覚言語支援擬似ラベルを用いた弱教師付き3次元シーングラフ生成法を提案する。
我々の3D-VLAPは、テキストと2D画像のセマンティクスを調整するために、現在の大規模視覚言語モデルの優れた能力を利用する。
エッジ自己アテンションに基づくグラフニューラルネットワークを設計し、3Dポイントクラウドシーンのシーングラフを生成する。
論文 参考訳(メタデータ) (2024-04-03T07:30:09Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - Joint Representation Learning for Text and 3D Point Cloud [35.67281936143821]
言語誘導型3Dポイントクラウドモデルを構築するための新しいText4Pointフレームワークを提案する。
提案されたText4Pointは、事前トレーニングと微調整のパラダイムに従っている。
我々のモデルは、ポイントクラウドセマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出など、さまざまなダウンストリームタスクにおいて一貫した改善を示す。
論文 参考訳(メタデータ) (2023-01-18T15:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。