論文の概要: Semantic Cross Attention for Few-shot Learning
- arxiv url: http://arxiv.org/abs/2210.06311v1
- Date: Wed, 12 Oct 2022 15:24:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:17:28.113641
- Title: Semantic Cross Attention for Few-shot Learning
- Title(参考訳): ファウショット学習のための意味的クロスアテンション
- Authors: Bin Xiao, Chien-Liang Liu, Wen-Hoar Hsaio
- Abstract要約: 本稿では,ラベルテキストのセマンティックな特徴を補助的タスクとして見るためのマルチタスク学習手法を提案する。
提案モデルでは,単語埋め込み表現をセマンティックな特徴として用いて,埋め込みネットワークとセマンティックなクロスアテンションモジュールをトレーニングし,セマンティックな特徴を一般的な視覚的モーダルにブリッジする。
- 参考スコア(独自算出の注目度): 9.529264466445236
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Few-shot learning (FSL) has attracted considerable attention recently. Among
existing approaches, the metric-based method aims to train an embedding network
that can make similar samples close while dissimilar samples as far as possible
and achieves promising results. FSL is characterized by using only a few images
to train a model that can generalize to novel classes in image classification
problems, but this setting makes it difficult to learn the visual features that
can identify the images' appearance variations. The model training is likely to
move in the wrong direction, as the images in an identical semantic class may
have dissimilar appearances, whereas the images in different semantic classes
may share a similar appearance. We argue that FSL can benefit from additional
semantic features to learn discriminative feature representations. Thus, this
study proposes a multi-task learning approach to view semantic features of
label text as an auxiliary task to help boost the performance of the FSL task.
Our proposed model uses word-embedding representations as semantic features to
help train the embedding network and a semantic cross-attention module to
bridge the semantic features into the typical visual modal. The proposed
approach is simple, but produces excellent results. We apply our proposed
approach to two previous metric-based FSL methods, all of which can
substantially improve performance. The source code for our model is accessible
from github.
- Abstract(参考訳): 近年,FSL (Few-shot Learning) が注目されている。
従来の手法では, 類似のサンプルを可能な限り近づき, 有望な結果が得られるよう, 組込みネットワークを訓練することを目的としていた。
FSLは、画像分類問題における新しいクラスに一般化できるモデルを訓練するために、少数の画像のみを使用することで特徴付けられるが、この設定は、画像の外観のバリエーションを識別できる視覚的特徴を学習することを困難にしている。
モデルトレーニングは、同一のセマンティッククラスの画像が異なる外観を持つのに対して、異なるセマンティッククラスの画像は同様の外観を持つため、間違った方向に移動する可能性が高い。
FSLは、識別的特徴表現を学習するための追加的な意味的特徴の恩恵を受けることができる。
そこで本研究では,FSLタスクの性能向上を支援するために,ラベルテキストのセマンティックな特徴を補助タスクとみなすマルチタスク学習手法を提案する。
提案モデルでは,単語埋め込み表現をセマンティックな特徴として用いて,埋め込みネットワークとセマンティックなクロスアテンションモジュールをトレーニングし,セマンティックな特徴を一般的な視覚的モーダルにブリッジする。
提案手法は単純だが,優れた結果が得られる。
提案手法は,従来の2つのメトリックベースfsl法に適用し,いずれも性能を著しく向上させる。
私たちのモデルのソースコードはgithubからアクセスできます。
関連論文リスト
- Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - ESPT: A Self-Supervised Episodic Spatial Pretext Task for Improving
Few-Shot Learning [16.859375666701]
我々は,新しい自己教師型空間規範タスク(ESPT)により,数発の学習目標を増強することを提案する。
ESPTの目的は、原エピソードと変換されたエピソードの間の局所的な空間的関係の一貫性を最大化することである。
ESPT法は,3つのメインステイ・ベンチマーク・データセットを用いた数ショット画像分類のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-04-26T04:52:08Z) - Visual-Semantic Contrastive Alignment for Few-Shot Image Classification [1.109560166867076]
Few-Shot Learningは、いくつかのラベル付き例で、目に見えない視覚クラスに適応可能なモデルをトレーニングすることを目的としている。
視覚的特徴ベクトルと意味的特徴ベクトルの対比的なアライメント機構を導入し、より一般化された視覚概念を学習する。
本手法は,視覚カテゴリーの文脈的知識を抽出する補助的コントラスト学習目的を単純に付加する。
論文 参考訳(メタデータ) (2022-10-20T03:59:40Z) - HIRL: A General Framework for Hierarchical Image Representation Learning [54.12773508883117]
階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
論文 参考訳(メタデータ) (2022-05-26T05:13:26Z) - Wave-SAN: Wavelet based Style Augmentation Network for Cross-Domain
Few-Shot Learning [95.78635058475439]
クロスドメイン少ショット学習は、一般的な自然画像から新しいドメイン固有のターゲットカテゴリへ知識を伝達することを目的としている。
本稿では、ソースデータセットのスタイル分布を分散させることにより、CD-FSLの問題点を考察する。
我々のモデルを視覚的スタイルに堅牢にするために、低周波成分のスタイルを交換することで、ソースイメージを拡張します。
論文 参考訳(メタデータ) (2022-03-15T05:36:41Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Aligning Visual Prototypes with BERT Embeddings for Few-Shot Learning [48.583388368897126]
ほとんどショット学習は、これまで目に見えないイメージのカテゴリを認識するための学習である。
画像クラスの名称を考慮に入れた手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T08:08:28Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Match Them Up: Visually Explainable Few-shot Image Classification [27.867833878756553]
ほとんどショットラーニングは、通常、訓練済みの知識がベース(見えない)カテゴリから得られ、新しい(見えない)カテゴリに十分に移行できるという仮定に基づいている。
本稿では、バックボーンモデルからの視覚的表現と、新たに導入された説明可能な分類器によって生成される重みを用いて、画像分類のための新しいFSLを実行する方法を明らかにする。
実験結果から,提案手法は3つの主流データセットに対して良好な精度と良好な説明性が得られることが示された。
論文 参考訳(メタデータ) (2020-11-25T05:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。