論文の概要: Rich Semantics Improve Few-shot Learning
- arxiv url: http://arxiv.org/abs/2104.12709v1
- Date: Mon, 26 Apr 2021 16:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:30:51.713347
- Title: Rich Semantics Improve Few-shot Learning
- Title(参考訳): リッチなセマンティックスによるショット学習の改善
- Authors: Mohamed Afham, Salman Khan, Muhammad Haris Khan, Muzammal Naseer,
Fahad Shahbaz Khan
- Abstract要約: アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
- 参考スコア(独自算出の注目度): 49.11659525563236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human learning benefits from multi-modal inputs that often appear as rich
semantics (e.g., description of an object's attributes while learning about
it). This enables us to learn generalizable concepts from very limited visual
examples. However, current few-shot learning (FSL) methods use numerical class
labels to denote object classes which do not provide rich semantic meanings
about the learned concepts. In this work, we show that by using 'class-level'
language descriptions, that can be acquired with minimal annotation cost, we
can improve the FSL performance. Given a support set and queries, our main idea
is to create a bottleneck visual feature (hybrid prototype) which is then used
to generate language descriptions of the classes as an auxiliary task during
training. We develop a Transformer based forward and backward encoding
mechanism to relate visual and semantic tokens that can encode intricate
relationships between the two modalities. Forcing the prototypes to retain
semantic information about class description acts as a regularizer on the
visual features, improving their generalization to novel classes at inference.
Furthermore, this strategy imposes a human prior on the learned
representations, ensuring that the model is faithfully relating visual and
semantic concepts, thereby improving model interpretability. Our experiments on
four datasets and ablation studies show the benefit of effectively modeling
rich semantics for FSL.
- Abstract(参考訳): 人間の学習は、しばしばリッチセマンティクスとして現れるマルチモーダル入力(例えば、そのことを学びながらオブジェクトの属性を記述する)からの恩恵を受ける。
これにより、非常に限られた視覚的な例から一般化可能な概念を学ぶことができる。
しかし、現在の数ショット学習(FSL)法では、数値クラスラベルを使用して、学習概念に関する豊富な意味を含まないオブジェクトクラスを表現している。
本研究では,最小限のアノテーションコストで得られる「クラスレベルの」言語記述を用いることで,FSLの性能を向上させることができることを示す。
サポートセットとクエリが与えられた後、私たちの主なアイデアはボトルネック視覚機能(ハイブリッドプロトタイプ)を作成し、トレーニング中の補助的なタスクとしてクラスの言語記述を生成することです。
我々は,2つのモダリティ間の複雑な関係をエンコードできる視覚的および意味的トークンを関連付けるトランスフォーマティブ・フォワード・フォワード・エンコーディング機構を開発した。
プロトタイプは、クラス記述に関するセマンティック情報を視覚的特徴の正規化として保持し、推論時に新しいクラスへの一般化を改善する。
さらに、この戦略は学習された表現に先行して人間を課し、モデルが視覚的概念と意味的概念に忠実に関係していることを保証する。
4つのデータセットとアブレーションに関する実験により、FSLのリッチセマンティクスを効果的にモデル化する利点が示された。
関連論文リスト
- Verbalized Representation Learning for Interpretable Few-Shot Generalization [130.8173035901391]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。
本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。
VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T01:55:08Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Visual-Semantic Contrastive Alignment for Few-Shot Image Classification [1.109560166867076]
Few-Shot Learningは、いくつかのラベル付き例で、目に見えない視覚クラスに適応可能なモデルをトレーニングすることを目的としている。
視覚的特徴ベクトルと意味的特徴ベクトルの対比的なアライメント機構を導入し、より一般化された視覚概念を学習する。
本手法は,視覚カテゴリーの文脈的知識を抽出する補助的コントラスト学習目的を単純に付加する。
論文 参考訳(メタデータ) (2022-10-20T03:59:40Z) - Semantic Cross Attention for Few-shot Learning [9.529264466445236]
本稿では,ラベルテキストのセマンティックな特徴を補助的タスクとして見るためのマルチタスク学習手法を提案する。
提案モデルでは,単語埋め込み表現をセマンティックな特徴として用いて,埋め込みネットワークとセマンティックなクロスアテンションモジュールをトレーニングし,セマンティックな特徴を一般的な視覚的モーダルにブリッジする。
論文 参考訳(メタデータ) (2022-10-12T15:24:59Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - Webly Supervised Semantic Embeddings for Large Scale Zero-Shot Learning [8.472636806304273]
ゼロショット学習(ZSL)は、データセットからクラスの一部に対する視覚的なトレーニングデータがない場合に、画像内のオブジェクト認識を可能にする。
大規模ZSLのための意味クラスプロトタイプ設計の問題に焦点をあてる。
本稿では,写真に付随するノイズの多いテキストメタデータをテキストコレクションとして利用する方法について検討する。
論文 参考訳(メタデータ) (2020-08-06T21:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。