論文の概要: EPSegFZ: Efficient Point Cloud Semantic Segmentation for Few- and Zero-Shot Scenarios with Language Guidance
- arxiv url: http://arxiv.org/abs/2511.11700v1
- Date: Wed, 12 Nov 2025 13:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.010603
- Title: EPSegFZ: Efficient Point Cloud Semantic Segmentation for Few- and Zero-Shot Scenarios with Language Guidance
- Title(参考訳): EPSegFZ: 言語指導によるFew-とZero-Shotシナリオのための効率的なポイントクラウドセマンティックセグメンテーション
- Authors: Jiahui Wang, Haiyue Zhu, Haoren Guo, Abdullah Al Mamun, Cheng Xiang, Tong Heng Lee,
- Abstract要約: 最近の3Dポイントクラウドセマンティックセグメンテーションのアプローチでは、通常、2段階の学習プロセス、すなわち事前訓練段階と数段階の訓練段階が必要となる。
我々は,Few-shot と Zero-shot のシナリオに対して,Efficient Point Cloud という,学習前のない新しいネットワークを提案する。
提案手法は,S3DISとScanNetのベンチマークでそれぞれ5.68%,3.82%,最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 20.869522557117662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent approaches for few-shot 3D point cloud semantic segmentation typically require a two-stage learning process, i.e., a pre-training stage followed by a few-shot training stage. While effective, these methods face overreliance on pre-training, which hinders model flexibility and adaptability. Some models tried to avoid pre-training yet failed to capture ample information. In addition, current approaches focus on visual information in the support set and neglect or do not fully exploit other useful data, such as textual annotations. This inadequate utilization of support information impairs the performance of the model and restricts its zero-shot ability. To address these limitations, we present a novel pre-training-free network, named Efficient Point Cloud Semantic Segmentation for Few- and Zero-shot scenarios. Our EPSegFZ incorporates three key components. A Prototype-Enhanced Registers Attention (ProERA) module and a Dual Relative Positional Encoding (DRPE)-based cross-attention mechanism for improved feature extraction and accurate query-prototype correspondence construction without pre-training. A Language-Guided Prototype Embedding (LGPE) module that effectively leverages textual information from the support set to improve few-shot performance and enable zero-shot inference. Extensive experiments show that our method outperforms the state-of-the-art method by 5.68% and 3.82% on the S3DIS and ScanNet benchmarks, respectively.
- Abstract(参考訳): 最近の3Dポイントクラウドセマンティックセグメンテーションのアプローチでは、通常、2段階の学習プロセス、すなわち事前訓練段階と数段階の訓練段階を必要とする。
効果はあるものの、これらの手法は事前トレーニングに過度に依存しており、モデルの柔軟性と適応性を妨げている。
いくつかのモデルは事前訓練を避けようとしたが、十分な情報が得られなかった。
さらに、現在のアプローチでは、サポートセットの視覚情報に重点を置いており、テキストアノテーションのような他の有用なデータを完全に活用していない。
このサポート情報の不十分な利用により、モデルの性能が損なわれ、ゼロショット能力が制限される。
これらの制約に対処するため、Few- and Zero-shot シナリオのための効率的なポイントクラウドセマンティックセマンティックセマンティックセマンティックセマンティックシグメンテーション(Efficient Point Cloud Semantic Segmentation for Few- and Zero-shot)という、新しいトレーニングなしネットワークを提案する。
EPSegFZには3つの重要なコンポーネントが組み込まれています。
ProERA(Prototype-Enhanced Registers Attention)モジュールとDRPE(Dual Relative Positional Encoding)ベースのクロスアテンション機構により、事前トレーニングなしで特徴抽出と正確なクエリ-プロトタイプ対応構築を改善する。
Language-Guided Prototype Embedding (LGPE)モジュールは、サポートセットからのテキスト情報を効果的に活用して、少数ショットのパフォーマンスを改善し、ゼロショット推論を可能にする。
その結果,S3DISベンチマークとScanNetベンチマークでそれぞれ5.68%,3.82%向上した。
関連論文リスト
- Targeted Forgetting of Image Subgroups in CLIP Models [30.78624907082701]
CLIPのようなファンデーションモデル(FM)は、様々なタスクで印象的なゼロショット性能を示している。
彼らはしばしば、ノイズの多いインターネットソースのデータセットから有害または望ましくない知識を継承する。
既存のモデルアンラーニングメソッドは、事前訓練されたデータセットへのアクセスに依存するか、あるいは粗い粒度のアンラーニングにフォーカスする。
過剰な鍛造を省きながら、対象とする知識を徐々に解き放つ新しい3段階アプローチを提案する。
論文 参考訳(メタデータ) (2025-06-03T17:50:03Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Boosting Few-shot 3D Point Cloud Segmentation via Query-Guided
Enhancement [30.017448714419455]
本稿では,PC-FSSモデルの改良手法を提案する。
従来のPC-FSSでは,クエリサンプルの新規クラスを識別するために,サポートプロトタイプのカテゴリ情報を直接活用する手法とは異なり,モデル性能を著しく向上させる2つの重要な側面を同定する。
論文 参考訳(メタデータ) (2023-08-06T18:07:45Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Explanation-Guided Training for Cross-Domain Few-Shot Classification [96.12873073444091]
クロスドメイン・ショット分類タスク(CD-FSC)は、データセットで表されるドメインをまたいで一般化する要件と、少数ショット分類を組み合わせたものである。
既存のFSCモデルに対する新しいトレーニング手法を提案する。
説明誘導学習はモデル一般化を効果的に改善することを示す。
論文 参考訳(メタデータ) (2020-07-17T07:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。