論文の概要: Class Knowledge Overlay to Visual Feature Learning for Zero-Shot Image
Classification
- arxiv url: http://arxiv.org/abs/2102.13322v1
- Date: Fri, 26 Feb 2021 06:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 14:04:49.136951
- Title: Class Knowledge Overlay to Visual Feature Learning for Zero-Shot Image
Classification
- Title(参考訳): ゼロショット画像分類のための視覚特徴学習のためのクラス知識オーバーレイ
- Authors: Cheng Xie, Ting Zeng, Hongxin Xiang, Keqin Li, Yun Yang, Qing Liu
- Abstract要約: クラス知識と視覚的特徴学習に基づく新しいゼロショット学習手法GAN-CSTを提案する。
提案されたモデルは最先端のアプローチよりも優れたパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 18.299463254965264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: New categories can be discovered by transforming semantic features into
synthesized visual features without corresponding training samples in zero-shot
image classification. Although significant progress has been made in generating
high-quality synthesized visual features using generative adversarial networks,
guaranteeing semantic consistency between the semantic features and visual
features remains very challenging. In this paper, we propose a novel zero-shot
learning approach, GAN-CST, based on class knowledge to visual feature learning
to tackle the problem. The approach consists of three parts, class knowledge
overlay, semi-supervised learning and triplet loss. It applies class knowledge
overlay (CKO) to obtain knowledge not only from the corresponding class but
also from other classes that have the knowledge overlay. It ensures that the
knowledge-to-visual learning process has adequate information to generate
synthesized visual features. The approach also applies a semi-supervised
learning process to re-train knowledge-to-visual model. It contributes to
reinforcing synthesized visual features generation as well as new category
prediction. We tabulate results on a number of benchmark datasets demonstrating
that the proposed model delivers superior performance over state-of-the-art
approaches.
- Abstract(参考訳): ゼロショット画像分類のトレーニングサンプルに対応することなく、意味的特徴を合成した視覚特徴に変換することで、新たなカテゴリが発見できる。
生成的対数ネットワークを用いた高品質な合成視覚特徴の生成には大きな進歩があったが、意味的特徴と視覚的特徴とのセマンティック一貫性を保証することは依然として非常に困難である。
本論文では,クラス知識と視覚的特徴学習を基礎として,その課題に取り組むための新たなゼロショット学習手法GAN-CSTを提案する。
このアプローチは、クラス知識のオーバーレイ、半教師付き学習、三重項損失という3つの部分からなる。
クラス知識オーバーレイ(CKO)を適用して、対応するクラスだけでなく、知識オーバーレイを持つ他のクラスからも知識を得ます。
これにより、知識と視覚の学習プロセスが、合成された視覚特徴を生成するのに十分な情報を持つことが保証される。
このアプローチはまた、知識-視覚モデルの再訓練に半教師付き学習プロセスを適用する。
合成された視覚特徴生成の強化と新しいカテゴリー予測に寄与する。
提案モデルが最先端のアプローチよりも優れたパフォーマンスを提供することを示す,いくつかのベンチマークデータセットの結果を集計した。
関連論文リスト
- Learning Prompt with Distribution-Based Feature Replay for Few-Shot Class-Incremental Learning [56.29097276129473]
分散型特徴再現(LP-DiF)を用いた学習プロンプト(Learning Prompt)という,シンプルで効果的なフレームワークを提案する。
新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似機能的リプレイ手法を提案する。
新しいセッションに進むと、古いクラスのディストリビューションと現在のセッションのトレーニングイメージを組み合わせて擬似フィーチャーをサンプリングして、プロンプトを最適化する。
論文 参考訳(メタデータ) (2024-01-03T07:59:17Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot
Learning [85.2093650907943]
機械に新しいカテゴリーを認識させるためのセマンティックガイド注意(SEGA)を提案する。
SEGAは意味的知識を使用して、視覚的特徴に注意を払うべきものについて、トップダウンの方法で視覚的知覚を導く。
セマンティックガイドによる注意は期待された機能を実現し、最先端の結果より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-08T08:03:44Z) - Transductive Zero-Shot Learning by Decoupled Feature Generation [30.664199050468472]
本稿では,未確認のクラスからの未表示の視覚データを利用できるトランスダクティブ・セッティングに着目する。
本稿では,現実的な視覚的特徴を生成し,意味的属性を視覚的手がかりに変換するタスクを分離することを提案する。
本研究は,提案手法の有効性を解明する上で,関連する最先端技術に対する優位性を実証するための詳細なアブレーション研究である。
論文 参考訳(メタデータ) (2021-02-05T16:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。