論文の概要: CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP
- arxiv url: http://arxiv.org/abs/2301.04926v2
- Date: Thu, 6 Apr 2023 09:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 17:15:12.637065
- Title: CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP
- Title(参考訳): CLIP2Scene: CLIPによるラベル効率のよい3Dシーン理解を目指して
- Authors: Runnan Chen, Youquan Liu, Lingdong Kong, Xinge Zhu, Yuexin Ma, Yikang
Li, Yuenan Hou, Yu Qiao, Wenping Wang
- Abstract要約: Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
- 参考スコア(独自算出の注目度): 55.864132158596206
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) achieves promising results in
2D zero-shot and few-shot learning. Despite the impressive performance in 2D,
applying CLIP to help the learning in 3D scene understanding has yet to be
explored. In this paper, we make the first attempt to investigate how CLIP
knowledge benefits 3D scene understanding. We propose CLIP2Scene, a simple yet
effective framework that transfers CLIP knowledge from 2D image-text
pre-trained models to a 3D point cloud network. We show that the pre-trained 3D
network yields impressive performance on various downstream tasks, i.e.,
annotation-free and fine-tuning with labelled data for semantic segmentation.
Specifically, built upon CLIP, we design a Semantic-driven Cross-modal
Contrastive Learning framework that pre-trains a 3D network via semantic and
spatial-temporal consistency regularization. For the former, we first leverage
CLIP's text semantics to select the positive and negative point samples and
then employ the contrastive loss to train the 3D network. In terms of the
latter, we force the consistency between the temporally coherent point cloud
features and their corresponding image features. We conduct experiments on
SemanticKITTI, nuScenes, and ScanNet. For the first time, our pre-trained
network achieves annotation-free 3D semantic segmentation with 20.8% and 25.08%
mIoU on nuScenes and ScanNet, respectively. When fine-tuned with 1% or 100%
labelled data, our method significantly outperforms other self-supervised
methods, with improvements of 8% and 1% mIoU, respectively. Furthermore, we
demonstrate the generalizability for handling cross-domain datasets. Code is
publicly available https://github.com/runnanchen/CLIP2Scene.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
2Dでの素晴らしいパフォーマンスにもかかわらず、3Dシーン理解の学習を支援するCLIPの適用はまだ検討されていない。
本稿では,CLIPの知識が3Dシーンの理解にどう役立つのかを初めて検討する。
CLIP2Sceneは、CLIPの知識を2D画像テキスト事前学習モデルから3Dポイントクラウドネットワークに転送する、シンプルで効果的なフレームワークである。
また,事前学習した3dネットワークは,意味セグメンテーションのためのラベル付きデータとのアノテーションフリーおよび微調整など,下流タスクに印象的なパフォーマンスをもたらすことを示す。
具体的には,CLIPをベースとしたセマンティック型クロスモーダルコントラスト学習フレームワークを設計し,意味的・空間的整合性正規化を通じて3次元ネットワークを事前学習する。
前者の場合、まずクリップのテキストセマンティクスを利用して正の点と負の点のサンプルを選択し、3dネットワークのトレーニングにコントラスト損失を利用する。
後者については、時間的に整合した点雲特徴と対応する画像特徴との整合性を強制する。
semantickitti,nuscenes,scannetについて実験を行った。
我々の事前学習ネットワークは、nuScenes と ScanNet でそれぞれ 20.8% と 25.08% mIoU のアノテーションのない3Dセマンティックセマンティックセマンティックセマンティクスを実現する。
1%または100%のラベル付きデータを微調整した場合,本手法は他の自己監督手法よりも優れ,8%,1% mIoUが改善した。
さらに,クロスドメインデータセットを扱うための汎用性を示す。
コードはhttps://github.com/runnanchen/clip2sceneで公開されている。
関連論文リスト
- Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - Towards Label-free Scene Understanding by Vision Foundation Models [87.13117617056004]
ネットワークがラベル付きデータなしで2Dおよび3D世界を理解できるようにするためのビジョン基盤モデルの可能性について検討する。
本稿では,CLIPとSAMの強度を利用して2次元ネットワークと3次元ネットワークを同時に監視するクロスモダリティ・ノイズ・スーパービジョン(CNS)手法を提案する。
我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。
論文 参考訳(メタデータ) (2023-06-06T17:57:49Z) - CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D
Dense CLIP [19.66617835750012]
3Dシーン理解モデルのトレーニングには、複雑な人間のアノテーションが必要である。
視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。
本稿では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。
論文 参考訳(メタデータ) (2023-03-08T17:30:58Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。