論文の概要: Few to Big: Prototype Expansion Network via Diffusion Learner for Point Cloud Few-shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2509.12878v1
- Date: Tue, 16 Sep 2025 09:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.00408
- Title: Few to Big: Prototype Expansion Network via Diffusion Learner for Point Cloud Few-shot Semantic Segmentation
- Title(参考訳): Few to Big:Point Cloud Few-shot Semantic Segmentationのための拡散学習機によるプロトタイプ拡張ネットワーク
- Authors: Qianguang Zhao, Dongli Wang, Yan Zhou, Jianxun Li, Richard Irampa,
- Abstract要約: Prototype Expansion Network (PENet) は、2つのアノテートされた特徴源から大容量のプロトタイプを構築するフレームワークである。
PENetは、様々ないくつかのショット設定で最先端のメソッドを著しく上回っている。
- 参考スコア(独自算出の注目度): 12.971351926107289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot 3D point cloud semantic segmentation aims to segment novel categories using a minimal number of annotated support samples. While existing prototype-based methods have shown promise, they are constrained by two critical challenges: (1) Intra-class Diversity, where a prototype's limited representational capacity fails to cover a class's full variations, and (2) Inter-set Inconsistency, where prototypes derived from the support set are misaligned with the query feature space. Motivated by the powerful generative capability of diffusion model, we re-purpose its pre-trained conditional encoder to provide a novel source of generalizable features for expanding the prototype's representational range. Under this setup, we introduce the Prototype Expansion Network (PENet), a framework that constructs big-capacity prototypes from two complementary feature sources. PENet employs a dual-stream learner architecture: it retains a conventional fully supervised Intrinsic Learner (IL) to distill representative features, while introducing a novel Diffusion Learner (DL) to provide rich generalizable features. The resulting dual prototypes are then processed by a Prototype Assimilation Module (PAM), which adopts a novel push-pull cross-guidance attention block to iteratively align the prototypes with the query space. Furthermore, a Prototype Calibration Mechanism (PCM) regularizes the final big capacity prototype to prevent semantic drift. Extensive experiments on the S3DIS and ScanNet datasets demonstrate that PENet significantly outperforms state-of-the-art methods across various few-shot settings.
- Abstract(参考訳): ショットの少ない3Dポイントクラウドセマンティックセマンティックセマンティクスは、注釈付きサポートサンプルの最小数を使用して、新しいカテゴリをセマンティクスすることを目的としている。
既存のプロトタイプベースの手法は将来性を示しているが,(1)クラス内の多様性,プロトタイプの表現能力がクラス全体のバリエーションをカバーできないこと,(2)サポートセットから派生したプロトタイプがクエリ機能空間と一致していないこと,の2つの重要な課題に制約されている。
拡散モデルの強力な生成能力に触発されて,事前学習した条件付きエンコーダを再利用して,プロトタイプの表現範囲を拡大する,一般化可能な特徴の新たな情報源を提供する。
本稿では,2つの相補的特徴源から大容量のプロトタイプを構築するフレームワークであるPrototype Expansion Network(PENet)を紹介する。
PENetはデュアルストリーム学習アーキテクチャを採用しており、従来の完全教師付き内在学習器(IL)を格納して代表的特徴を抽出し、新しい拡散学習器(DL)を導入してリッチな一般化可能な特徴を提供する。
結果として得られた2つのプロトタイプはPrototype Assimilation Module (PAM)によって処理され、新しいプッシュプルクロスガイダンスアテンションブロックを採用して、プロトタイプをクエリ空間に反復的に整列させる。
さらに、PCM(Prototype Calibration Mechanism)は、最終的な大容量のプロトタイプを正規化し、セマンティックドリフトを防ぐ。
S3DISとScanNetデータセットに関する大規模な実験は、PENetが様々な数ショット設定で最先端のメソッドを大幅に上回っていることを示している。
関連論文リスト
- Probabilistic Prototype Calibration of Vision-Language Models for Generalized Few-shot Semantic Segmentation [75.18058114915327]
一般化されたFew-Shot Semanticnative(GFSS)は、いくつかの注釈付き例だけでセグメンテーションモデルを新しいクラスに拡張することを目的としている。
プリトレーニング済みCLIPのマルチモーダルプロトタイプ上での確率的プロトタイプ校正フレームワークであるFewCLIPを提案する。
FewCLIPはGFSSとクラスインクリメンタルセッティングの両方で最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2025-06-28T18:36:22Z) - A Deep Positive-Negative Prototype Approach to Integrated Prototypical Discriminative Learning [0.30693357740321775]
本稿では,PbLと識別手法を組み合わせた新しいDPNPモデルを提案する。
DPNPは特徴空間内のほぼ規則的な位置でプロトタイプを編成でき、より低次元の特徴空間においても競争力のある分類精度を達成できることを示す。
論文 参考訳(メタデータ) (2025-01-05T08:24:31Z) - Query-guided Prototype Evolution Network for Few-Shot Segmentation [85.75516116674771]
本稿では,前景と背景のプロトタイプの生成プロセスにクエリ機能を統合する新しい手法を提案する。
PASCAL-$5i$とミラーリング-$20i$データセットの実験結果は、QPENetが達成した実質的な拡張を示している。
論文 参考訳(メタデータ) (2024-03-11T07:50:40Z) - Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition [40.329190454146996]
MultimOdal PRototype-ENhanced Network (MORN)は、ラベルテキストの意味情報をマルチモーダル情報として利用してプロトタイプを強化する。
我々は4つの一般的な数発のアクション認識データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-12-09T14:24:39Z) - Few-Shot Segmentation via Rich Prototype Generation and Recurrent
Prediction Enhancement [12.614578133091168]
本稿では,プロトタイプ学習パラダイムを強化するために,リッチプロトタイプ生成モジュール (RPGM) と繰り返し予測拡張モジュール (RPEM) を提案する。
RPGMはスーパーピクセルとK平均クラスタリングを組み合わせて、補完的なスケール関係を持つリッチなプロトタイプ機能を生成する。
RPEMは、リカレントメカニズムを使用して、ラウンドウェイ伝搬デコーダを設計する。
論文 参考訳(メタデータ) (2022-10-03T08:46:52Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Prototype Completion for Few-Shot Learning [13.63424509914303]
少数ショット学習は、いくつかの例で新しいクラスを認識することを目的としている。
事前学習に基づく手法は,特徴抽出器を事前学習し,最寄りのセントロイド型メタラーニングを通して微調整することで,この問題に効果的に対処する。
本稿では,完成度に基づくメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:44:00Z) - End-to-end One-shot Human Parsing [91.5113227694443]
One-shot Human Parsing (OSHP) タスクでは、テスト例によって定義されたオープンなクラスに人間を解析する必要がある。
EOP-Net (End-to-end One-shot Human Parsing Network) が提案されている。
EOP-Netは、一発セグメンテーションモデルを大きなマージンで上回る。
論文 参考訳(メタデータ) (2021-05-04T01:35:50Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。