論文の概要: Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2312.07221v1
- Date: Tue, 12 Dec 2023 12:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:14:41.020308
- Title: Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation
- Title(参考訳): ゼロショット点クラウドセマンティックセグメンテーションへのCLIPの知識伝達
- Authors: Yuanbin Wang, Shaofei Huang, Yulu Gao, Zhen Wang, Rui Wang, Kehua
Sheng, Bo Zhang, Si Liu
- Abstract要約: 従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
- 参考スコア(独自算出の注目度): 17.914290294935427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional 3D segmentation methods can only recognize a fixed range of
classes that appear in the training set, which limits their application in
real-world scenarios due to the lack of generalization ability. Large-scale
visual-language pre-trained models, such as CLIP, have shown their
generalization ability in the zero-shot 2D vision tasks, but are still unable
to be applied to 3D semantic segmentation directly. In this work, we focus on
zero-shot point cloud semantic segmentation and propose a simple yet effective
baseline to transfer the visual-linguistic knowledge implied in CLIP to point
cloud encoder at both feature and output levels. Both feature-level and
output-level alignments are conducted between 2D and 3D encoders for effective
knowledge transfer. Concretely, a Multi-granularity Cross-modal Feature
Alignment (MCFA) module is proposed to align 2D and 3D features from global
semantic and local position perspectives for feature-level alignment. For the
output level, per-pixel pseudo labels of unseen classes are extracted using the
pre-trained CLIP model as supervision for the 3D segmentation model to mimic
the behavior of the CLIP image encoder. Extensive experiments are conducted on
two popular benchmarks of point cloud segmentation. Our method outperforms
significantly previous state-of-the-art methods under zero-shot setting (+29.2%
mIoU on SemanticKITTI and 31.8% mIoU on nuScenes), and further achieves
promising results in the annotation-free point cloud semantic segmentation
setting, showing its great potential for label-efficient learning.
- Abstract(参考訳): 従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模視覚言語事前訓練モデルでは、ゼロショット2D視覚タスクにおいて一般化能力を示すが、3Dセマンティックセグメンテーションに直接適用することはできない。
本稿では,ゼロショットポイントクラウドセマンティックセグメンテーションに着目し,CLIPが入力する視覚言語的知識を機能レベルと出力レベルの両方でクラウドエンコーダに転送するための,シンプルかつ効果的なベースラインを提案する。
2dエンコーダと3dエンコーダ間で機能レベルと出力レベルのアライメントを行い、効果的な知識転送を行う。
具体的には,グローバルセマンティクスと局所位置アライメントから2次元および3次元特徴をアライメントするために,マルチグラニュラリティクロスモーダル特徴アライメント(mcfa)モジュールを提案する。
出力レベルでは、CLIP画像エンコーダの動作を模倣する3Dセグメンテーションモデルの監督として、事前訓練されたCLIPモデルを用いて、未確認クラスの画素ごとの擬似ラベルを抽出する。
ポイントクラウドセグメンテーションの2つの人気のあるベンチマークで広範な実験が行われている。
提案手法は,セマンティックKITTIでは+29.2% mIoU,nuScenesでは31.8% mIoU) で過去の最先端手法よりも優れており,またアノテーションのないクラウドセマンティックセマンティックセマンティックスセグメンテーション設定においても有望な結果が得られ,ラベル効率のよい学習の可能性を示している。
関連論文リスト
- Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - CLIPose: Category-Level Object Pose Estimation with Pre-trained
Vision-Language Knowledge [18.57081150228812]
本稿では、事前学習された視覚言語モデルを用いて、オブジェクトカテゴリ情報の学習を改善する新しい6Dポーズフレームワークを提案する。
CLIPoseは、2つの主要なベンチマークデータセットであるREAL275とCAMERA25で最先端のパフォーマンスを達成し、推論中(40FPS)にリアルタイムに実行される。
論文 参考訳(メタデータ) (2024-02-24T05:31:53Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning [40.28152121477885]
私たちはまず、CLIPとGPTを協力して、PointCLIP V2という名前の3Dオープンワールド学習者にしました。
PointCLIP V2は、ゼロショット3D分類、セグメンテーション、検出の可能性を完全に解放する。
我々のアプローチは、ゼロショット3D分類のための3つのデータセットにおいて、ポイントCLIPを+42.90%、+40.44%、+28.75%の精度で大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-21T17:52:43Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z) - Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point
Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。
本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T23:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。