論文の概要: Prototype-Guided Curriculum Learning for Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2508.07771v1
- Date: Mon, 11 Aug 2025 08:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.019888
- Title: Prototype-Guided Curriculum Learning for Zero-Shot Learning
- Title(参考訳): ゼロショット学習のためのプロトタイプガイド型カリキュラム学習
- Authors: Lei Wang, Shiming Chen, Guo-Sen Xie, Ziming Hong, Chaojian Yu, Qinmu Peng, Xinge You,
- Abstract要約: CLZSLと呼ばれるプロトタイプ誘導型カリキュラム学習フレームワークを提案する。
PCLモジュールは、視覚マッピングとクラスレベルのセマンティックプロトタイプとの間のコサイン類似度の高いサンプルを優先順位付けする。
PUPモジュールは、インスタンスから学んだ視覚マッピングを活用することで、クラスレベルのセマンティックプロトタイプを動的に更新する。
- 参考スコア(独自算出の注目度): 25.632658478653855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Zero-Shot Learning (ZSL), embedding-based methods enable knowledge transfer from seen to unseen classes by learning a visual-semantic mapping from seen-class images to class-level semantic prototypes (e.g., attributes). However, these semantic prototypes are manually defined and may introduce noisy supervision for two main reasons: (i) instance-level mismatch: variations in perspective, occlusion, and annotation bias will cause discrepancies between individual sample and the class-level semantic prototypes; and (ii) class-level imprecision: the manually defined semantic prototypes may not accurately reflect the true semantics of the class. Consequently, the visual-semantic mapping will be misled, reducing the effectiveness of knowledge transfer to unseen classes. In this work, we propose a prototype-guided curriculum learning framework (dubbed as CLZSL), which mitigates instance-level mismatches through a Prototype-Guided Curriculum Learning (PCL) module and addresses class-level imprecision via a Prototype Update (PUP) module. Specifically, the PCL module prioritizes samples with high cosine similarity between their visual mappings and the class-level semantic prototypes, and progressively advances to less-aligned samples, thereby reducing the interference of instance-level mismatches to achieve accurate visual-semantic mapping. Besides, the PUP module dynamically updates the class-level semantic prototypes by leveraging the visual mappings learned from instances, thereby reducing class-level imprecision and further improving the visual-semantic mapping. Experiments were conducted on standard benchmark datasets-AWA2, SUN, and CUB-to verify the effectiveness of our method.
- Abstract(参考訳): Zero-Shot Learning (ZSL) において、埋め込みベースの手法は、目に見える画像からクラスレベルのセマンティックプロトタイプ(属性など)への視覚的意味マッピングを学習することで、目に見えるクラスから目に見えないクラスへの知識伝達を可能にする。
しかし、これらのセマンティックプロトタイプは手動で定義されており、2つの主な理由からノイズの多い監視を導入する可能性がある。
i) インスタンスレベルのミスマッチ: 視点、オクルージョン、アノテーションバイアスのバリエーションは、個々のサンプルとクラスレベルのセマンティックプロトタイプの相違を引き起こす。
(ii) クラスレベルの不正確さ: 手動で定義されたセマンティックプロトタイプは、クラスの真のセマンティックスを正確に反映しないかもしれない。
その結果、視覚意味マッピングは誤解され、未知のクラスへの知識伝達の有効性が低下する。
そこで本研究では,PCL(Prototype-Guided Curriculum Learning)モジュールを通じてインスタンスレベルのミスマッチを緩和し,PUP(Prototype Update)モジュールを介してクラスレベルの不正確性に対処する,プロトタイプガイド型カリキュラム学習フレームワーク(CLZSL)を提案する。
具体的には、PCLモジュールは、視覚マッピングとクラスレベルのセマンティックプロトタイプのコサイン類似度の高いサンプルを優先順位付けし、より整列度の低いサンプルに徐々に前進し、インスタンスレベルのミスマッチの干渉を低減し、正確な視覚的セマンティックマッピングを実現する。
さらに、PUPモジュールは、インスタンスから学んだビジュアルマッピングを利用して、クラスレベルのセマンティックプロトタイプを動的に更新する。
標準ベンチマークデータセットであるAWA2,SUN,CUBを用いて,本手法の有効性を検証する実験を行った。
関連論文リスト
- Hunting Attributes: Context Prototype-Aware Learning for Weakly
Supervised Semantic Segmentation [22.591512454923883]
我々は、インスタンスとコンテキスト間の知識バイアスが、インスタンスのセマンティクスを十分に理解するプロトタイプの能力に影響を与えると主張している。
プロトタイプ学習理論に触発された本研究では,インスタンスの多種多様かつきめ細かな特徴を捉えるために,プロトタイプ認識を活用することを提案する。
本稿では,コンテキスト型認識学習(CPAL:Context Prototype-Aware Learning)戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T13:11:58Z) - Evolving Semantic Prototype Improves Generative Zero-Shot Learning [73.07035277030573]
ゼロショット学習(ZSL)では、生成法は事前に定義されたセマンティックプロトタイプに基づいてクラス関連サンプル特徴を合成する。
各クラスの事前定義されたセマンティックプロトタイプは、実際のセマンティックプロトタイプと正確に一致しない。
本稿では,経験的に定義された意味的プロトタイプと,クラス関連特徴合成のための実際のプロトタイプを整合させる動的意味的プロトタイプ(DSP)法を提案する。
論文 参考訳(メタデータ) (2023-06-12T08:11:06Z) - Learning Prototype via Placeholder for Zero-shot Recognition [18.204927316433448]
我々は,LPLと呼ばれるプレースホルダーを通じてプロトタイプを学習し,目に見えるクラスと目に見えないクラスのドメインシフトを排除することを提案する。
我々は、プレースホルダーのセマンティックな信頼性を保証するために、新しいセマンティック指向の微調整を利用する。
5つのベンチマークデータセットの実験では、最先端の手法よりもLPLの大幅なパフォーマンス向上が示されている。
論文 参考訳(メタデータ) (2022-07-29T09:56:44Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Learning Semantic Ambiguities for Zero-Shot Learning [0.0]
本稿では,任意の条件生成型ZSL法に適用可能な正規化手法を提案する。
トレーニング時に利用できない意味記述が可能な差別的特徴を合成することを学ぶ。
この手法は、文献でよく用いられる4つのデータセット上で、ZSLとGZSLに対して評価される。
論文 参考訳(メタデータ) (2022-01-05T21:08:29Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z) - Generative Model-driven Structure Aligning Discriminative Embeddings for
Transductive Zero-shot Learning [21.181715602603436]
本稿では、潜在空間における視覚的および意味的なデータを整列する投影関数を学習するためのニューラルネットワークに基づくモデルを提案する。
AWA1, AWA2, CUB, SUN, FLOなどの標準ベンチマークデータセットにおいて, 優れた性能を示す。
また,ラベル付きデータ構造が極めて少ない場合においても,モデルの有効性を示す。
論文 参考訳(メタデータ) (2020-05-09T18:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。