論文の概要: ZeroDiff: Solidified Visual-Semantic Correlation in Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2406.02929v2
- Date: Tue, 11 Feb 2025 08:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:04:29.034811
- Title: ZeroDiff: Solidified Visual-Semantic Correlation in Zero-Shot Learning
- Title(参考訳): ZeroDiff: ゼロショット学習における統合された視覚的セマンティック相関
- Authors: Zihan Ye, Shreyank N. Gowda, Xiaowei Huang, Haotian Xu, Yaochu Jin, Kaizhu Huang, Xiaobo Jin,
- Abstract要約: クラスサンプルの不足は、多くの生成的ゼロショット学習技術で顕著な性能低下をもたらす。
我々はZSLのための革新的な生成フレームワークであるZeroDiffを紹介した。
ZeroDiffは既存のZSLメソッドよりも大幅に改善されているだけでなく、トレーニングデータが少ない場合でも堅牢なパフォーマンスを維持している。
- 参考スコア(独自算出の注目度): 38.36200871549062
- License:
- Abstract: Zero-shot Learning (ZSL) aims to enable classifiers to identify unseen classes. This is typically achieved by generating visual features for unseen classes based on learned visual-semantic correlations from seen classes. However, most current generative approaches heavily rely on having a sufficient number of samples from seen classes. Our study reveals that a scarcity of seen class samples results in a marked decrease in performance across many generative ZSL techniques. We argue, quantify, and empirically demonstrate that this decline is largely attributable to spurious visual-semantic correlations. To address this issue, we introduce ZeroDiff, an innovative generative framework for ZSL that incorporates diffusion mechanisms and contrastive representations to enhance visual-semantic correlations. ZeroDiff comprises three key components: (1) Diffusion augmentation, which naturally transforms limited data into an expanded set of noised data to mitigate generative model overfitting; (2) Supervised-contrastive (SC)-based representations that dynamically characterize each limited sample to support visual feature generation; and (3) Multiple feature discriminators employing a Wasserstein-distance-based mutual learning approach, evaluating generated features from various perspectives, including pre-defined semantics, SC-based representations, and the diffusion process. Extensive experiments on three popular ZSL benchmarks demonstrate that ZeroDiff not only achieves significant improvements over existing ZSL methods but also maintains robust performance even with scarce training data. Our codes are available at https://github.com/FouriYe/ZeroDiff_ICLR25.
- Abstract(参考訳): Zero-shot Learning (ZSL) は、分類器が見えないクラスを識別できるようにすることを目的としている。
これは典型的には、目に見えるクラスから学習した視覚的・意味的相関に基づいて、目に見えないクラスの視覚的特徴を生成することによって達成される。
しかし、現在の生成的アプローチのほとんどは、見いだされたクラスから十分な数のサンプルを持つことに大きく依存している。
本研究は, 検出されたクラス標本の不足が, 多くの生成的ZSL技術において顕著な性能低下をもたらすことを明らかにした。
我々は、この減少が視覚-意味的相関に大きく寄与していることを論じ、定量化し、実証的に証明する。
この問題に対処するために、ZSLのための革新的な生成フレームワークであるZeroDiffを導入する。
ZeroDiff は,(1) 限られたデータを自然に拡張されたノイズデータに変換して生成モデルオーバーフィッティングを緩和する拡散拡張,(2) 視覚的特徴生成をサポートするために,各限られたサンプルを動的に特徴付けるスーパーバイザード・コントラスト(SC) に基づく表現,(3) ワッサーシュタイン・ディスタンスに基づく相互学習アプローチを用いた複数特徴識別, 定義済みセマンティクス, SCベース表現, 拡散過程など,様々な視点から生成された特徴を評価する。
3つの人気のあるZSLベンチマークの大規模な実験は、ZeroDiffが既存のZSLメソッドよりも大幅に改善されているだけでなく、訓練データが少ない場合でも堅牢なパフォーマンスを維持していることを示している。
私たちのコードはhttps://github.com/FouriYe/ZeroDiff_ICLR25.comで公開されています。
関連論文リスト
- CREST: Cross-modal Resonance through Evidential Deep Learning for Enhanced Zero-Shot Learning [48.46511584490582]
ゼロショット学習(ZSL)は、既知のカテゴリから未知のカテゴリへのセマンティックな知識伝達を活用することで、新しいクラスの認識を可能にする。
分布不均衡や属性共起といった現実世界の課題は、画像の局所的なばらつきの識別を妨げる。
これらの課題を克服するために、双方向のクロスモーダルZSLアプローチCRESTを提案する。
論文 参考訳(メタデータ) (2024-04-15T10:19:39Z) - Zero-Shot Learning by Harnessing Adversarial Samples [52.09717785644816]
本稿では,HAS(Harnessing Adversarial Samples)によるZSL(Zero-Shot Learning)アプローチを提案する。
HASは3つの重要な側面を考慮に入れた敵の訓練を通じてZSLを前進させる。
本稿では,ZSLと一般化ゼロショット学習(GZSL)の両シナリオにおいて,敵対的サンプルアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-01T06:19:13Z) - Resolving Semantic Confusions for Improved Zero-Shot Detection [6.72910827751713]
本稿では,クラス間の相違度を認識する三重項損失を考慮した生成モデルを提案する。
クラスの生成した視覚的サンプルが、自身のセマンティクスに高度に対応していることを保証するために、サイクリック一貫性損失も実施される。
論文 参考訳(メタデータ) (2022-12-12T18:11:48Z) - Federated Zero-Shot Learning for Visual Recognition [55.65879596326147]
本稿では,Federated Zero-Shot Learning FedZSLフレームワークを提案する。
FedZSLは、エッジデバイス上の分散データから中心的なモデルを学ぶ。
FedZSLの有効性と堅牢性は、3つのゼロショットベンチマークデータセットで実施された広範な実験によって実証された。
論文 参考訳(メタデータ) (2022-09-05T14:49:34Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Zero-Shot Logit Adjustment [89.68803484284408]
Generalized Zero-Shot Learning (GZSL) は意味記述に基づく学習技術である。
本稿では,分類器の改良を無視しつつ,ジェネレータの効果を高める新しい世代ベース手法を提案する。
実験により,提案手法が基本生成器と組み合わせた場合の最先端化を実現し,様々なゼロショット学習フレームワークを改良できることが実証された。
論文 参考訳(メタデータ) (2022-04-25T17:54:55Z) - Disentangling Semantic-to-visual Confusion for Zero-shot Learning [13.610995960100869]
我々はDCR-GAN(Disentangling Class Representation Generative Adrial Network)と呼ばれる新しいモデルを開発する。
DCR-GANは、歪んだ表現から恩恵を受け、見えない特徴と見えない特徴の両方に対して、より現実的な分布に適合する可能性がある。
提案モデルは,4つのベンチマークデータセット上での最先端モデルよりも優れた性能を実現することができる。
論文 参考訳(メタデータ) (2021-06-16T08:04:11Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。