論文の概要: Rich Semantics Improve Few-shot Learning
- arxiv url: http://arxiv.org/abs/2104.12709v1
- Date: Mon, 26 Apr 2021 16:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:30:51.713347
- Title: Rich Semantics Improve Few-shot Learning
- Title(参考訳): リッチなセマンティックスによるショット学習の改善
- Authors: Mohamed Afham, Salman Khan, Muhammad Haris Khan, Muzammal Naseer,
Fahad Shahbaz Khan
- Abstract要約: アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
- 参考スコア(独自算出の注目度): 49.11659525563236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human learning benefits from multi-modal inputs that often appear as rich
semantics (e.g., description of an object's attributes while learning about
it). This enables us to learn generalizable concepts from very limited visual
examples. However, current few-shot learning (FSL) methods use numerical class
labels to denote object classes which do not provide rich semantic meanings
about the learned concepts. In this work, we show that by using 'class-level'
language descriptions, that can be acquired with minimal annotation cost, we
can improve the FSL performance. Given a support set and queries, our main idea
is to create a bottleneck visual feature (hybrid prototype) which is then used
to generate language descriptions of the classes as an auxiliary task during
training. We develop a Transformer based forward and backward encoding
mechanism to relate visual and semantic tokens that can encode intricate
relationships between the two modalities. Forcing the prototypes to retain
semantic information about class description acts as a regularizer on the
visual features, improving their generalization to novel classes at inference.
Furthermore, this strategy imposes a human prior on the learned
representations, ensuring that the model is faithfully relating visual and
semantic concepts, thereby improving model interpretability. Our experiments on
four datasets and ablation studies show the benefit of effectively modeling
rich semantics for FSL.
- Abstract(参考訳): 人間の学習は、しばしばリッチセマンティクスとして現れるマルチモーダル入力(例えば、そのことを学びながらオブジェクトの属性を記述する)からの恩恵を受ける。
これにより、非常に限られた視覚的な例から一般化可能な概念を学ぶことができる。
しかし、現在の数ショット学習(FSL)法では、数値クラスラベルを使用して、学習概念に関する豊富な意味を含まないオブジェクトクラスを表現している。
本研究では,最小限のアノテーションコストで得られる「クラスレベルの」言語記述を用いることで,FSLの性能を向上させることができることを示す。
サポートセットとクエリが与えられた後、私たちの主なアイデアはボトルネック視覚機能(ハイブリッドプロトタイプ)を作成し、トレーニング中の補助的なタスクとしてクラスの言語記述を生成することです。
我々は,2つのモダリティ間の複雑な関係をエンコードできる視覚的および意味的トークンを関連付けるトランスフォーマティブ・フォワード・フォワード・エンコーディング機構を開発した。
プロトタイプは、クラス記述に関するセマンティック情報を視覚的特徴の正規化として保持し、推論時に新しいクラスへの一般化を改善する。
さらに、この戦略は学習された表現に先行して人間を課し、モデルが視覚的概念と意味的概念に忠実に関係していることを保証する。
4つのデータセットとアブレーションに関する実験により、FSLのリッチセマンティクスを効果的にモデル化する利点が示された。
関連論文リスト
- SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Visual-Semantic Contrastive Alignment for Few-Shot Image Classification [1.109560166867076]
Few-Shot Learningは、いくつかのラベル付き例で、目に見えない視覚クラスに適応可能なモデルをトレーニングすることを目的としている。
視覚的特徴ベクトルと意味的特徴ベクトルの対比的なアライメント機構を導入し、より一般化された視覚概念を学習する。
本手法は,視覚カテゴリーの文脈的知識を抽出する補助的コントラスト学習目的を単純に付加する。
論文 参考訳(メタデータ) (2022-10-20T03:59:40Z) - Semantic Cross Attention for Few-shot Learning [9.529264466445236]
本稿では,ラベルテキストのセマンティックな特徴を補助的タスクとして見るためのマルチタスク学習手法を提案する。
提案モデルでは,単語埋め込み表現をセマンティックな特徴として用いて,埋め込みネットワークとセマンティックなクロスアテンションモジュールをトレーニングし,セマンティックな特徴を一般的な視覚的モーダルにブリッジする。
論文 参考訳(メタデータ) (2022-10-12T15:24:59Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - Webly Supervised Semantic Embeddings for Large Scale Zero-Shot Learning [8.472636806304273]
ゼロショット学習(ZSL)は、データセットからクラスの一部に対する視覚的なトレーニングデータがない場合に、画像内のオブジェクト認識を可能にする。
大規模ZSLのための意味クラスプロトタイプ設計の問題に焦点をあてる。
本稿では,写真に付随するノイズの多いテキストメタデータをテキストコレクションとして利用する方法について検討する。
論文 参考訳(メタデータ) (2020-08-06T21:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。