論文の概要: PMCE: Probabilistic Multi-Granularity Semantics with Caption-Guided Enhancement for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2601.14111v1
- Date: Tue, 20 Jan 2026 16:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.404083
- Title: PMCE: Probabilistic Multi-Granularity Semantics with Caption-Guided Enhancement for Few-Shot Learning
- Title(参考訳): PMCE:Few-Shot Learningのためのキャプション誘導強化による確率的多粒度意味論
- Authors: Jiaying Wu, Can Gao, Jinglu Hu, Hui Li, Xiaofeng Cao, Jingcai Guo,
- Abstract要約: 少数のラベル付きサンプルから新しいカテゴリを識別することを目的としている。
本稿では,多粒度セマンティクスとキャプション誘導型エンハンスメントを利用したPMCEを提案する。
- 参考スコア(独自算出の注目度): 32.31794815671946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot learning aims to identify novel categories from only a handful of labeled samples, where prototypes estimated from scarce data are often biased and generalize poorly. Semantic-based methods alleviate this by introducing coarse class-level information, but they are mostly applied on the support side, leaving query representations unchanged. In this paper, we present PMCE, a Probabilistic few-shot framework that leverages Multi-granularity semantics with Caption-guided Enhancement. PMCE constructs a nonparametric knowledge bank that stores visual statistics for each category as well as CLIP-encoded class name embeddings of the base classes. At meta-test time, the most relevant base classes are retrieved based on the similarities of class name embeddings for each novel category. These statistics are then aggregated into category-specific prior information and fused with the support set prototypes via a simple MAP update. Simultaneously, a frozen BLIP captioner provides label-free instance-level image descriptions, and a lightweight enhancer trained on base classes optimizes both support prototypes and query features under an inductive protocol with a consistency regularization to stabilize noisy captions. Experiments on four benchmarks show that PMCE consistently improves over strong baselines, achieving up to 7.71% absolute gain over the strongest semantic competitor on MiniImageNet in the 1-shot setting. Our code is available at https://anonymous.4open.science/r/PMCE-275D
- Abstract(参考訳): 少数のラベル付きサンプルから新しいカテゴリを識別することを目的としていないが、少ないデータから推定されるプロトタイプはバイアスを受け、一般化が不十分であることが多い。
セマンティックベースのメソッドは、粗いクラスレベルの情報を導入することでこれを緩和するが、主にサポート側で適用され、クエリ表現はそのままである。
本稿では,多粒性セマンティクスとキャプション誘導型エンハンスメントを利用する確率的少数ショットフレームワークPMCEを提案する。
PMCEは、各カテゴリの視覚統計を格納する非パラメトリックの知識バンクを構築し、ベースクラスのCLIPエンコードされたクラス名を埋め込みます。
メタテスト時には、各新規カテゴリのクラス名埋め込みの類似性に基づいて、最も関連性の高いベースクラスを検索する。
これらの統計データをカテゴリ固有の事前情報に集約し、MAP更新を通じてサポートセットのプロトタイプと融合する。
同時に、凍結したBLIPキャプタは、ラベルのないインスタンスレベルの画像記述を提供し、ベースクラスで訓練された軽量なエンハンサーは、ノイズキャプタを安定させるために、一貫性のある正規化を備えたインダクティブプロトコルの下で、サポートプロトタイプとクエリ機能の両方を最適化する。
4つのベンチマークの実験では、PMCEは強いベースラインよりも一貫して改善しており、1ショット設定でMiniImageNet上で最強のセマンティックコンペティターよりも7.71%の絶対的なゲインを達成している。
私たちのコードはhttps://anonymous.4open.science/r/PMCE-275Dで利用可能です。
関連論文リスト
- Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Prediction Calibration for Generalized Few-shot Semantic Segmentation [101.69940565204816]
汎用Few-shot Semantic (GFSS) は、各画像ピクセルを、豊富なトレーニング例を持つベースクラスか、クラスごとにわずかに(例: 1-5)のトレーニングイメージを持つ新しいクラスのいずれかに分割することを目的としている。
我々は、融合したマルチレベル機能を用いて、分類器の最終予測をガイドするクロスアテンションモジュールを構築する。
私たちのPCNは、最先端の代替品よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-10-15T13:30:12Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Rank4Class: A Ranking Formulation for Multiclass Classification [26.47229268790206]
マルチクラス分類(MCC)は基本的な機械学習問題である。
ランキングのレンズを通した新しい定式化により,MCCの性能を向上させることは容易であることを示す。
論文 参考訳(メタデータ) (2021-12-17T19:22:37Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - A Closer Look at Few-Shot Video Classification: A New Baseline and
Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。
まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。
第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。
第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-24T06:01:46Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。