Fugu-MT 論文翻訳(概要): CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP

論文の概要: CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP

arxiv url: http://arxiv.org/abs/2301.04926v1
Date: Thu, 12 Jan 2023 10:42:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 14:38:21.945248
Title: CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP
Title（参考訳）: CLIP2Scene: CLIPによるラベル効率のよい3Dシーン理解を目指して
Authors: Runnan Chen, Youquan Liu, Lingdong Kong, Xinge Zhu, Yuexin Ma, Yikang Li, Yuenan Hou, Yu Qiao, Wenping Wang
Abstract要約: 対照的な言語画像事前学習(CLIP)は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
参考スコア（独自算出の注目度）: 55.864132158596206
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Contrastive language-image pre-training (CLIP) achieves promising results in 2D zero-shot and few-shot learning. Despite the impressive performance in 2D tasks, applying CLIP to help the learning in 3D scene understanding has yet to be explored. In this paper, we make the first attempt to investigate how CLIP knowledge benefits 3D scene understanding. To this end, we propose CLIP2Scene, a simple yet effective framework that transfers CLIP knowledge from 2D image-text pre-trained models to a 3D point cloud network. We show that the pre-trained 3D network yields impressive performance on various downstream tasks, i.e., annotation-free and fine-tuning with labelled data for semantic segmentation. Specifically, built upon CLIP, we design a Semantic-driven Cross-modal Contrastive Learning framework that pre-trains a 3D network via semantic and spatial-temporal consistency regularization. For semantic consistency regularization, we first leverage CLIP's text semantics to select the positive and negative point samples and then employ the contrastive loss to train the 3D network. In terms of spatial-temporal consistency regularization, we force the consistency between the temporally coherent point cloud features and their corresponding image features. We conduct experiments on the nuScenes and SemanticKITTI datasets. For the first time, our pre-trained network achieves annotation-free 3D semantic segmentation with 20.8\% mIoU. When fine-tuned with 1\% or 100\% labelled data, our method significantly outperforms other self-supervised methods, with improvements of 8\% and 1\% mIoU, respectively. Furthermore, we demonstrate its generalization capability for handling cross-domain datasets.
Abstract（参考訳）: 対照的な言語画像事前学習(CLIP)は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。 2Dタスクの素晴らしいパフォーマンスにもかかわらず、3Dシーン理解の学習を支援するCLIPの適用はまだ検討されていない。本稿では,CLIPの知識が3Dシーンの理解にどう役立つのかを初めて検討する。この目的のために、CLIPの知識を2D画像テキスト事前学習モデルから3Dポイントクラウドネットワークに転送する、シンプルで効果的なフレームワークであるCLIP2Sceneを提案する。また,事前学習した3dネットワークは,意味セグメンテーションのためのラベル付きデータとのアノテーションフリーおよび微調整など,下流タスクに印象的なパフォーマンスをもたらすことを示す。具体的には,CLIPをベースとしたセマンティック型クロスモーダルコントラスト学習フレームワークを設計し,意味的・空間的整合性正規化を通じて3次元ネットワークを事前学習する。意味的一貫性の正規化のために、まずクリップのテキスト意味論を利用して正の点と負の点のサンプルを選択し、3dネットワークのトレーニングにコントラスト損失を利用する。空間的・時間的一貫性の整合性については,時間的コヒーレントな点雲特徴と対応する画像特徴との整合性を強制する。我々はnuScenesとSemanticKITTIデータセットの実験を行った。事前学習されたネットワークは20.8\% mIoUでアノテーションのない3Dセマンティックセマンティックセグメンテーションを初めて達成した。 1\%または100\%のラベル付きデータで微調整すると、各8\%と1\%のmiouが改善され、他の自己教師付き方法を大幅に上回る。さらに,クロスドメインデータセットを扱うための一般化機能を示す。

関連論文リスト

Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文参考訳（メタデータ） (2024-09-12T14:54:31Z)
Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文参考訳（メタデータ） (2024-01-23T02:41:06Z)
Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。 CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2023-12-12T12:35:59Z)
Towards Label-free Scene Understanding by Vision Foundation Models [87.13117617056004]
ネットワークがラベル付きデータなしで2Dおよび3D世界を理解できるようにするためのビジョン基盤モデルの可能性について検討する。本稿では,CLIPとSAMの強度を利用して2次元ネットワークと3次元ネットワークを同時に監視するクロスモダリティ・ノイズ・スーパービジョン(CNS)手法を提案する。我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。
論文参考訳（メタデータ） (2023-06-06T17:57:49Z)
CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文参考訳（メタデータ） (2023-03-22T09:32:45Z)
CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D Dense CLIP [19.66617835750012]
3Dシーン理解モデルのトレーニングには、複雑な人間のアノテーションが必要である。視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。本稿では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。
論文参考訳（メタデータ） (2023-03-08T17:30:58Z)
ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文参考訳（メタデータ） (2022-12-10T01:34:47Z)
PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。 PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文参考訳（メタデータ） (2021-12-04T19:42:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。