論文の概要: Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2404.14808v1
- Date: Tue, 23 Apr 2024 07:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:00:46.293482
- Title: Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning
- Title(参考訳): ゼロショット学習のための視覚拡張動的セマンティックプロトタイプ
- Authors: Wenjin Hou, Shiming Chen, Shuhuang Chen, Ziming Hong, Yan Wang, Xuetao Feng, Salman Khan, Fahad Shahbaz Khan, Xinge You,
- Abstract要約: 本稿では,視覚・視覚の正確なマッピングを学習するために,ジェネレータを高速化するビジュアル拡張動的セマンティックプロトタイプ(VADS)を提案する。
VADSは2つのモジュールから構成される:(1)視覚認識ドメイン知識学習モジュール(VDKL)は視覚特徴の局所バイアスとグローバル先行を学習し、純粋なガウス雑音を置き換え、よりリッチな事前ノイズ情報を提供する;(2)視覚指向セマンティックアップダクションモジュール(VOSU)は、サンプルの視覚表現に従ってセマンティックプロトタイプを更新する。
- 参考スコア(独自算出の注目度): 56.16593809016167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Zero-shot learning (ZSL) learns a generator to synthesize visual samples for unseen classes, which is an effective way to advance ZSL. However, existing generative methods rely on the conditions of Gaussian noise and the predefined semantic prototype, which limit the generator only optimized on specific seen classes rather than characterizing each visual instance, resulting in poor generalizations (\textit{e.g.}, overfitting to seen classes). To address this issue, we propose a novel Visual-Augmented Dynamic Semantic prototype method (termed VADS) to boost the generator to learn accurate semantic-visual mapping by fully exploiting the visual-augmented knowledge into semantic conditions. In detail, VADS consists of two modules: (1) Visual-aware Domain Knowledge Learning module (VDKL) learns the local bias and global prior of the visual features (referred to as domain visual knowledge), which replace pure Gaussian noise to provide richer prior noise information; (2) Vision-Oriented Semantic Updation module (VOSU) updates the semantic prototype according to the visual representations of the samples. Ultimately, we concatenate their output as a dynamic semantic prototype, which serves as the condition of the generator. Extensive experiments demonstrate that our VADS achieves superior CZSL and GZSL performances on three prominent datasets and outperforms other state-of-the-art methods with averaging increases by 6.4\%, 5.9\% and 4.2\% on SUN, CUB and AWA2, respectively.
- Abstract(参考訳): 生成ゼロショット学習(ZSL)は、未知のクラスのための視覚サンプルを合成するジェネレータを学習し、ZSLを前進させる効果的な方法である。
しかし、既存の生成法はガウスノイズの条件と定義済みのセマンティックプロトタイプに依存しており、生成元は個々の視覚的インスタンスを特徴づけるのではなく、特定の視覚的クラスにのみ最適化される。
この問題に対処するために,視覚的な知識を意味的条件に完全に活用して正確な意味的視覚マッピングを学習するために,ジェネレータを高速化する新しいビジュアル拡張動的意味論的プロトタイプ手法(VADS)を提案する。
VADSは2つのモジュールから構成される:(1)視覚認識ドメイン知識学習モジュール(VDKL)は視覚特徴の局所的偏りとグローバルな先行(ドメイン視覚知識)を学習し、純粋なガウス雑音を置き換えてよりリッチな事前ノイズ情報を提供する;(2)視覚指向セマンティック更新モジュール(VOSU)は、サンプルの視覚表現に従ってセマンティックプロトタイプを更新する。
最終的に、それらの出力を動的セマンティックプロトタイプとして結合し、ジェネレータの条件として機能する。
SUN, CUB, AWA2では, 平均値が6.4\%, 5.9\%, 4.2\%, 平均値が6.4\%, 平均値が4.2\%, 平均値が6.4\%, 平均値が6.4\%, 平均値が0。
関連論文リスト
- ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning [28.52949450389388]
Zero-shot Learning (ZSL) は、目に見えないクラスから見えないクラスに意味的な知識を移すことによって、目に見えないクラスを認識することを目的としている。
我々はZSLを前進させるためにZeroMambaと呼ばれるパラメータ効率の高いZSLフレームワークを提案する。
ZeroMambaは、SLP(Semantic-Aware Local Projection)、GRL(Global Representation Learning)、Semantic Fusion(SeF)の3つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-08-27T08:39:47Z) - Evolving Semantic Prototype Improves Generative Zero-Shot Learning [73.07035277030573]
ゼロショット学習(ZSL)では、生成法は事前に定義されたセマンティックプロトタイプに基づいてクラス関連サンプル特徴を合成する。
各クラスの事前定義されたセマンティックプロトタイプは、実際のセマンティックプロトタイプと正確に一致しない。
本稿では,経験的に定義された意味的プロトタイプと,クラス関連特徴合成のための実際のプロトタイプを整合させる動的意味的プロトタイプ(DSP)法を提案する。
論文 参考訳(メタデータ) (2023-06-12T08:11:06Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Zero-Shot Logit Adjustment [89.68803484284408]
Generalized Zero-Shot Learning (GZSL) は意味記述に基づく学習技術である。
本稿では,分類器の改良を無視しつつ,ジェネレータの効果を高める新しい世代ベース手法を提案する。
実験により,提案手法が基本生成器と組み合わせた場合の最先端化を実現し,様々なゼロショット学習フレームワークを改良できることが実証された。
論文 参考訳(メタデータ) (2022-04-25T17:54:55Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - Boosting Generative Zero-Shot Learning by Synthesizing Diverse Features
with Attribute Augmentation [21.72622601533585]
多様な特徴を合成してゼロショット学習(ZSL)を促進する新しいフレームワークを提案する。
本手法は,視覚特徴の実際の分布をシミュレートするために,拡張意味属性を用いて生成モデルを訓練する。
提案したモデルを4つのベンチマークデータセット上で評価し,現状に対する大幅な性能改善を観察した。
論文 参考訳(メタデータ) (2021-12-23T14:32:51Z) - Generalized Zero-Shot Learning via VAE-Conditioned Generative Flow [83.27681781274406]
一般化されたゼロショット学習は、意味的記述から視覚的表現へ知識を移すことによって、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
近年のGZSLはデータ不足問題として定式化されており、主にGANやVAEを採用して、目に見えないクラスの視覚的特徴を生成する。
GZSLのための条件付き生成フロー,すなわちVAE-Conditioned Generative Flow (VAE-cFlow)を提案する。
論文 参考訳(メタデータ) (2020-09-01T09:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。