論文の概要: CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP
- arxiv url: http://arxiv.org/abs/2301.04926v1
- Date: Thu, 12 Jan 2023 10:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:38:21.945248
- Title: CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP
- Title(参考訳): CLIP2Scene: CLIPによるラベル効率のよい3Dシーン理解を目指して
- Authors: Runnan Chen, Youquan Liu, Lingdong Kong, Xinge Zhu, Yuexin Ma, Yikang
Li, Yuenan Hou, Yu Qiao, Wenping Wang
- Abstract要約: 対照的な言語画像事前学習(CLIP)は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
- 参考スコア(独自算出の注目度): 55.864132158596206
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive language-image pre-training (CLIP) achieves promising results in
2D zero-shot and few-shot learning. Despite the impressive performance in 2D
tasks, applying CLIP to help the learning in 3D scene understanding has yet to
be explored. In this paper, we make the first attempt to investigate how CLIP
knowledge benefits 3D scene understanding. To this end, we propose CLIP2Scene,
a simple yet effective framework that transfers CLIP knowledge from 2D
image-text pre-trained models to a 3D point cloud network. We show that the
pre-trained 3D network yields impressive performance on various downstream
tasks, i.e., annotation-free and fine-tuning with labelled data for semantic
segmentation. Specifically, built upon CLIP, we design a Semantic-driven
Cross-modal Contrastive Learning framework that pre-trains a 3D network via
semantic and spatial-temporal consistency regularization. For semantic
consistency regularization, we first leverage CLIP's text semantics to select
the positive and negative point samples and then employ the contrastive loss to
train the 3D network. In terms of spatial-temporal consistency regularization,
we force the consistency between the temporally coherent point cloud features
and their corresponding image features. We conduct experiments on the nuScenes
and SemanticKITTI datasets. For the first time, our pre-trained network
achieves annotation-free 3D semantic segmentation with 20.8\% mIoU. When
fine-tuned with 1\% or 100\% labelled data, our method significantly
outperforms other self-supervised methods, with improvements of 8\% and 1\%
mIoU, respectively. Furthermore, we demonstrate its generalization capability
for handling cross-domain datasets.
- Abstract(参考訳): 対照的な言語画像事前学習(CLIP)は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
2Dタスクの素晴らしいパフォーマンスにもかかわらず、3Dシーン理解の学習を支援するCLIPの適用はまだ検討されていない。
本稿では,CLIPの知識が3Dシーンの理解にどう役立つのかを初めて検討する。
この目的のために、CLIPの知識を2D画像テキスト事前学習モデルから3Dポイントクラウドネットワークに転送する、シンプルで効果的なフレームワークであるCLIP2Sceneを提案する。
また,事前学習した3dネットワークは,意味セグメンテーションのためのラベル付きデータとのアノテーションフリーおよび微調整など,下流タスクに印象的なパフォーマンスをもたらすことを示す。
具体的には,CLIPをベースとしたセマンティック型クロスモーダルコントラスト学習フレームワークを設計し,意味的・空間的整合性正規化を通じて3次元ネットワークを事前学習する。
意味的一貫性の正規化のために、まずクリップのテキスト意味論を利用して正の点と負の点のサンプルを選択し、3dネットワークのトレーニングにコントラスト損失を利用する。
空間的・時間的一貫性の整合性については,時間的コヒーレントな点雲特徴と対応する画像特徴との整合性を強制する。
我々はnuScenesとSemanticKITTIデータセットの実験を行った。
事前学習されたネットワークは20.8\% mIoUでアノテーションのない3Dセマンティックセマンティックセグメンテーションを初めて達成した。
1\%または100\%のラベル付きデータで微調整すると、各8\%と1\%のmiouが改善され、他の自己教師付き方法を大幅に上回る。
さらに,クロスドメインデータセットを扱うための一般化機能を示す。
関連論文リスト
- Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - Towards Label-free Scene Understanding by Vision Foundation Models [87.13117617056004]
ネットワークがラベル付きデータなしで2Dおよび3D世界を理解できるようにするためのビジョン基盤モデルの可能性について検討する。
本稿では,CLIPとSAMの強度を利用して2次元ネットワークと3次元ネットワークを同時に監視するクロスモダリティ・ノイズ・スーパービジョン(CNS)手法を提案する。
我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。
論文 参考訳(メタデータ) (2023-06-06T17:57:49Z) - CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D
Dense CLIP [19.66617835750012]
3Dシーン理解モデルのトレーニングには、複雑な人間のアノテーションが必要である。
視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。
本稿では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。
論文 参考訳(メタデータ) (2023-03-08T17:30:58Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。