論文の概要: Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model
- arxiv url: http://arxiv.org/abs/2503.16282v1
- Date: Thu, 20 Mar 2025 16:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:31:47.019138
- Title: Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model
- Title(参考訳): ビジョンランゲージモデルを用いた一般化Few-shot 3Dポイントクラウドセグメンテーション
- Authors: Zhaochong An, Guolei Sun, Yun Liu, Runjia Li, Junlin Han, Ender Konukoglu, Serge Belongie,
- Abstract要約: 汎用的な小ショットの3Dポイントクラウドセグメンテーション(GFS-PCS)は、ベースクラスセグメンテーションを維持しながら、サポートサンプルがほとんどない新しいクラスにモデルを適応させる。
GFS-PCS フレームワークを導入し,高密度だがノイズの多い擬似ラベルを高精度かつスパースなサンプルで合成し,両者の強度を最大化する。
- 参考スコア(独自算出の注目度): 25.666715057529935
- License:
- Abstract: Generalized few-shot 3D point cloud segmentation (GFS-PCS) adapts models to new classes with few support samples while retaining base class segmentation. Existing GFS-PCS methods enhance prototypes via interacting with support or query features but remain limited by sparse knowledge from few-shot samples. Meanwhile, 3D vision-language models (3D VLMs), generalizing across open-world novel classes, contain rich but noisy novel class knowledge. In this work, we introduce a GFS-PCS framework that synergizes dense but noisy pseudo-labels from 3D VLMs with precise yet sparse few-shot samples to maximize the strengths of both, named GFS-VL. Specifically, we present a prototype-guided pseudo-label selection to filter low-quality regions, followed by an adaptive infilling strategy that combines knowledge from pseudo-label contexts and few-shot samples to adaptively label the filtered, unlabeled areas. Additionally, we design a novel-base mix strategy to embed few-shot samples into training scenes, preserving essential context for improved novel class learning. Moreover, recognizing the limited diversity in current GFS-PCS benchmarks, we introduce two challenging benchmarks with diverse novel classes for comprehensive generalization evaluation. Experiments validate the effectiveness of our framework across models and datasets. Our approach and benchmarks provide a solid foundation for advancing GFS-PCS in the real world. The code is at https://github.com/ZhaochongAn/GFS-VL
- Abstract(参考訳): 汎用的な小ショットの3Dポイントクラウドセグメンテーション(GFS-PCS)は、ベースクラスセグメンテーションを維持しながら、サポートサンプルがほとんどない新しいクラスにモデルを適応させる。
既存のGFS-PCSメソッドは、サポートやクエリ機能と相互作用してプロトタイプを強化するが、少数のサンプルからのわずかな知識によって制限される。
一方、3次元視覚言語モデル(3D VLM)は、オープンワールドのノベルクラスにまたがって一般化され、リッチだがノイズの多いノベルクラス知識を含んでいる。
本研究では,GFS-PCSフレームワークを導入し,高密度だがノイズの多い擬似ラベルを3次元VLMから合成する。
具体的には、低品質領域をフィルタリングするためのプロトタイプガイド付き擬似ラベル選択と、擬似ラベルコンテキストからの知識と、フィルタされた未ラベル領域を適応的にラベル付けするための少数ショットサンプルを組み合わせた適応的埋め込み戦略を提案する。
さらに,学習シーンに数発のサンプルを埋め込むための新規な混合戦略を設計し,新しいクラス学習を改善するための重要なコンテキストを保存する。
さらに,現在のGFS-PCSベンチマークの多様性に限界があることを認識し,包括的一般化評価のために,多様な新しいクラスを持つ2つの挑戦的ベンチマークを導入する。
実験は、モデルとデータセット間でフレームワークの有効性を検証する。
我々のアプローチとベンチマークは、実世界におけるGFS-PCSの進歩に確かな基盤を提供する。
コードはhttps://github.com/ZhaochongAn/GFS-VLにある。
関連論文リスト
- LC-Protonets: Multi-Label Few-Shot Learning for World Music Audio Tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - HGL: Hierarchical Geometry Learning for Test-time Adaptation in 3D Point Cloud Segmentation [20.1605364785155]
本稿では,3次元クラウドセグメンテーションのための階層幾何学学習(HGL)フレームワークを提案する。
HGLは、局所的、グローバルから時間的学習までの3つの相補的なモジュールをボトムアップで構成する。
SynLiDAR to Semantic KITTIタスクでは、HGLは46.91%のmIoUを達成し、GIPSOを3.0%改善し、必要な適応時間を80%削減した。
論文 参考訳(メタデータ) (2024-07-17T08:08:03Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Prototypical VoteNet for Few-Shot 3D Point Cloud Object Detection [37.48935478836176]
VoteNetは、数発の3Dポイントクラウドオブジェクト検出アプローチである。
PVM(Prototypeal Vote Module)とPHM(Prototypeal Head Module)の2つの新しいモジュールが組み込まれている。
論文 参考訳(メタデータ) (2022-10-11T16:25:38Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Segmenting 3D Hybrid Scenes via Zero-Shot Learning [13.161136148641813]
この研究は、ゼロショット学習の枠組みの下で、3Dハイブリッドシーンのポイントクラウドセマンティックセマンティックセマンティクスの問題に取り組むことを目的としている。
本稿では、PFNetと呼ばれる、オブジェクトの様々なクラスに対するポイント特徴を、見えていないクラスと見えないクラスの両方のセマンティック特徴を利用して合成するネットワークを提案する。
提案したPFNet は点特徴を合成するために GAN アーキテクチャを用いており、新しい意味正規化器を適用することにより、目に見えるクラスと目に見えないクラスの特徴のセマンティックな関係が統合される。
本研究では,S3DISデータセットとScanNetデータセットを6つの異なるデータ分割で再編成し,アルゴリズム評価のための2つのベンチマークを提案する。
論文 参考訳(メタデータ) (2021-07-01T13:21:49Z) - Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。
私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-01-27T18:56:46Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。