論文の概要: Probabilistic Prototype Calibration of Vision-Language Models for Generalized Few-shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2506.22979v1
- Date: Sat, 28 Jun 2025 18:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.657451
- Title: Probabilistic Prototype Calibration of Vision-Language Models for Generalized Few-shot Semantic Segmentation
- Title(参考訳): 一般化Few-shotセマンティックセマンティックセグメンテーションのための視覚言語モデルの確率論的プロトタイプ校正
- Authors: Jie Liu, Jiayi Shen, Pan Zhou, Jan-Jakob Sonke, Efstratios Gavves,
- Abstract要約: 一般化されたFew-Shot Semanticnative(GFSS)は、いくつかの注釈付き例だけでセグメンテーションモデルを新しいクラスに拡張することを目的としている。
プリトレーニング済みCLIPのマルチモーダルプロトタイプ上での確率的プロトタイプ校正フレームワークであるFewCLIPを提案する。
FewCLIPはGFSSとクラスインクリメンタルセッティングの両方で最先端のアプローチを著しく上回っている。
- 参考スコア(独自算出の注目度): 75.18058114915327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalized Few-Shot Semantic Segmentation (GFSS) aims to extend a segmentation model to novel classes with only a few annotated examples while maintaining performance on base classes. Recently, pretrained vision-language models (VLMs) such as CLIP have been leveraged in GFSS to improve generalization on novel classes through multi-modal prototypes learning. However, existing prototype-based methods are inherently deterministic, limiting the adaptability of learned prototypes to diverse samples, particularly for novel classes with scarce annotations. To address this, we propose FewCLIP, a probabilistic prototype calibration framework over multi-modal prototypes from the pretrained CLIP, thus providing more adaptive prototype learning for GFSS. Specifically, FewCLIP first introduces a prototype calibration mechanism, which refines frozen textual prototypes with learnable visual calibration prototypes, leading to a more discriminative and adaptive representation. Furthermore, unlike deterministic prototype learning techniques, FewCLIP introduces distribution regularization over these calibration prototypes. This probabilistic formulation ensures structured and uncertainty-aware prototype learning, effectively mitigating overfitting to limited novel class data while enhancing generalization. Extensive experimental results on PASCAL-5$^i$ and COCO-20$^i$ datasets demonstrate that our proposed FewCLIP significantly outperforms state-of-the-art approaches across both GFSS and class-incremental setting. The code is available at https://github.com/jliu4ai/FewCLIP.
- Abstract(参考訳): 汎用的なFew-Shot Semantic Segmentation (GFSS) は、セグメンテーションモデルを新しいクラスに拡張することを目的としている。
近年,CLIP などの事前学習型視覚言語モデル (VLM) がGFSS で活用され,マルチモーダルプロトタイプ学習による新規クラスの一般化が進んでいる。
しかし、既存のプロトタイプベースの手法は本質的に決定論的であり、学習したプロトタイプの多様なサンプルへの適応性を制限している。
そこで本研究では,プレトレーニング済みCLIPの多モードプロトタイプに対する確率的プロトタイプ校正フレームワークであるFewCLIPを提案する。
具体的には、FewCLIPはまず、凍結したテキストのプロトタイプを学習可能なビジュアルキャリブレーションのプロトタイプで洗練するプロトタイプキャリブレーション機構を導入し、より差別的で適応的な表現をもたらす。
さらに、FewCLIPは、決定論的プロトタイプ学習技術とは異なり、これらの校正プロトタイプに対する分布正規化を導入している。
この確率的定式化により、構造化された不確実性を認識したプロトタイプ学習が保証され、一般化を高めながら、限られた新しいクラスデータへの過剰適合を効果的に軽減する。
PASCAL-5$^i$およびCOCO-20$^i$データセットの大規模な実験結果から,提案したFewCLIPはGFSSとクラスインクリメンタルセッティングの両方において,最先端のアプローチを著しく上回っていることが示された。
コードはhttps://github.com/jliu4ai/FewCLIPで入手できる。
関連論文リスト
- Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Boundary-Refined Prototype Generation: A General End-to-End Paradigm for Semi-Supervised Semantic Segmentation [23.00156170789867]
半教師付きセマンティックセグメンテーションはコンピュータビジョンにおいて注目を集めている。
現在のアプローチでは、メイントレーニングフレームワークからプロトタイプ生成を分離しています。
本稿では,新しい境界修正プロトタイプ生成法(BRPG)を提案する。
論文 参考訳(メタデータ) (2023-07-19T16:12:37Z) - Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文 参考訳(メタデータ) (2022-03-28T21:15:32Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - A Closer Look at Prototype Classifier for Few-shot Image Classification [28.821731837776593]
プロトタイプの分類器は微調整やメタラーニングを伴わずに等しく機能することを示す。
本稿では, 特徴ベクトルのノルムの分散に着目し, 性能を向上できることを示す。
論文 参考訳(メタデータ) (2021-10-11T08:28:43Z) - Prototype Completion for Few-Shot Learning [13.63424509914303]
少数ショット学習は、いくつかの例で新しいクラスを認識することを目的としている。
事前学習に基づく手法は,特徴抽出器を事前学習し,最寄りのセントロイド型メタラーニングを通して微調整することで,この問題に効果的に対処する。
本稿では,完成度に基づくメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:44:00Z) - Learning Sparse Prototypes for Text Generation [120.38555855991562]
プロトタイプ駆動のテキスト生成は、トレーニングコーパス全体の保存とインデックスを必要とするため、テスト時に非効率である。
本稿では,言語モデリング性能を向上するスパースなプロトタイプサポートセットを自動的に学習する新しい生成モデルを提案する。
実験では,1000倍のメモリ削減を実現しつつ,従来のプロトタイプ駆動型言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2020-06-29T19:41:26Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。