論文の概要: SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot
Learning
- arxiv url: http://arxiv.org/abs/2111.04316v1
- Date: Mon, 8 Nov 2021 08:03:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 15:50:17.969374
- Title: SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot
Learning
- Title(参考訳): SEGA:Few-Shot Learningのためのビジュアルプロトタイプのセマンティックガイド
- Authors: Fengyuan Yang, Ruiping Wang, Xilin Chen
- Abstract要約: 機械に新しいカテゴリーを認識させるためのセマンティックガイド注意(SEGA)を提案する。
SEGAは意味的知識を使用して、視覚的特徴に注意を払うべきものについて、トップダウンの方法で視覚的知覚を導く。
セマンティックガイドによる注意は期待された機能を実現し、最先端の結果より優れていることを示す。
- 参考スコア(独自算出の注目度): 85.2093650907943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teaching machines to recognize a new category based on few training samples
especially only one remains challenging owing to the incomprehensive
understanding of the novel category caused by the lack of data. However, human
can learn new classes quickly even given few samples since human can tell what
discriminative features should be focused on about each category based on both
the visual and semantic prior knowledge. To better utilize those prior
knowledge, we propose the SEmantic Guided Attention (SEGA) mechanism where the
semantic knowledge is used to guide the visual perception in a top-down manner
about what visual features should be paid attention to when distinguishing a
category from the others. As a result, the embedding of the novel class even
with few samples can be more discriminative. Concretely, a feature extractor is
trained to embed few images of each novel class into a visual prototype with
the help of transferring visual prior knowledge from base classes. Then we
learn a network that maps semantic knowledge to category-specific attention
vectors which will be used to perform feature selection to enhance the visual
prototypes. Extensive experiments on miniImageNet, tieredImageNet, CIFAR-FS,
and CUB indicate that our semantic guided attention realizes anticipated
function and outperforms state-of-the-art results.
- Abstract(参考訳): 少数のトレーニングサンプルに基づく新しいカテゴリの認識を機械に教えること、特に1つだけがデータ不足による新しいカテゴリの理解が理解できないことによる課題である。
しかし、視覚と意味の両方の事前知識に基づいて、どの分類的特徴に重点を置くべきかを人間が知ることができるため、人間はわずかなサンプルでも新しいクラスを素早く学ぶことができる。
これらの先行知識をより有効活用するために,セマンティクス・ガイド・アテンション(sega)機構を提案する。セマンティクス・ナレッションは,カテゴリーを他のカテゴリと区別する際に,視覚的な特徴が何に注意を払わなければならないかをトップダウン方式で視覚的な認識を導くために,セマンティクス・ナレッジ(semantic guided attention, sega)機構を提案する。
結果として、サンプルが少ない場合でも新しいクラスを組み込むことはより差別的である。
具体的には、各新規クラスのイメージを視覚プロトタイプに組み込むように特徴抽出器を訓練し、ベースクラスから視覚事前知識を転送する。
次に,意味的知識をカテゴリー固有の注意ベクトルにマッピングするネットワークを学習し,特徴選択を行い,視覚的プロトタイプを強化する。
miniImageNet, tieredImageNet, CIFAR-FS, CUB の広範な実験により,我々のセマンティックガイドによる注意が期待された機能を実現し, 最先端の成果を上回っていることが示された。
関連論文リスト
- Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Automatically Discovering Novel Visual Categories with Self-supervised
Prototype Learning [68.63910949916209]
本稿では,大規模な画像収集において未知のカテゴリを識別することを目的とした,新しいカテゴリ発見(NCD)の課題に取り組む。
本稿では,プロトタイプ表現学習とプロトタイプ自己学習という,2つの主要な段階からなる適応型プロトタイプ学習手法を提案する。
本研究では,4つのベンチマークデータセットについて広範な実験を行い,提案手法の有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2022-08-01T16:34:33Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Class Knowledge Overlay to Visual Feature Learning for Zero-Shot Image
Classification [18.299463254965264]
クラス知識と視覚的特徴学習に基づく新しいゼロショット学習手法GAN-CSTを提案する。
提案されたモデルは最先端のアプローチよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2021-02-26T06:34:35Z) - Zero-shot Learning with Deep Neural Networks for Object Recognition [8.572654816871873]
ゼロショット学習は、視覚的なトレーニングサンプルなしでオブジェクトを認識する能力を扱う。
本章では、ZSL問題に取り組むためのディープニューラルネットワークに基づくアプローチについてレビューする。
論文 参考訳(メタデータ) (2021-02-05T12:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。