論文の概要: Visual-Semantic Contrastive Alignment for Few-Shot Image Classification
- arxiv url: http://arxiv.org/abs/2210.11000v1
- Date: Thu, 20 Oct 2022 03:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:01:21.779354
- Title: Visual-Semantic Contrastive Alignment for Few-Shot Image Classification
- Title(参考訳): Few-Shot画像分類のためのビジュアル・セマンティック・コントラストアライメント
- Authors: Mohamed Afham, Ranga Rodrigo
- Abstract要約: Few-Shot Learningは、いくつかのラベル付き例で、目に見えない視覚クラスに適応可能なモデルをトレーニングすることを目的としている。
視覚的特徴ベクトルと意味的特徴ベクトルの対比的なアライメント機構を導入し、より一般化された視覚概念を学習する。
本手法は,視覚カテゴリーの文脈的知識を抽出する補助的コントラスト学習目的を単純に付加する。
- 参考スコア(独自算出の注目度): 1.109560166867076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-Shot learning aims to train and optimize a model that can adapt to unseen
visual classes with only a few labeled examples. The existing few-shot learning
(FSL) methods, heavily rely only on visual data, thus fail to capture the
semantic attributes to learn a more generalized version of the visual concept
from very few examples. However, it is a known fact that human visual learning
benefits immensely from inputs from multiple modalities such as vision,
language, and audio. Inspired by the human learning nature of encapsulating the
existing knowledge of a visual category which is in the form of language, we
introduce a contrastive alignment mechanism for visual and semantic feature
vectors to learn much more generalized visual concepts for few-shot learning.
Our method simply adds an auxiliary contrastive learning objective which
captures the contextual knowledge of a visual category from a strong textual
encoder in addition to the existing training mechanism. Hence, the approach is
more generalized and can be plugged into any existing FSL method. The
pre-trained semantic feature extractor (learned from a large-scale text
corpora) we use in our approach provides a strong contextual prior knowledge to
assist FSL. The experimental results done in popular FSL datasets show that our
approach is generic in nature and provides a strong boost to the existing FSL
baselines.
- Abstract(参考訳): Few-Shot Learningは、表示されていない視覚クラスに適応できるモデルをトレーニングし、最適化することを目的としている。
既存の数ショット学習(FSL)法は、視覚データのみに大きく依存しているため、視覚概念のより一般化されたバージョンを学ぶために意味的属性をキャプチャできなかった。
しかし、人間の視覚学習が視覚、言語、音声などの複数のモードからの入力から大きな恩恵を受けることは知られている事実である。
言語形態の視覚カテゴリの既存の知識をカプセル化する人間の学習の性質に触発されて,視覚特徴ベクトルと意味的特徴ベクトルの対比的アライメント機構を導入して,より汎用的な視覚概念を学習する。
提案手法は,既存の学習機構に加えて,強力なテキストエンコーダから視覚カテゴリーの文脈的知識を抽出する補助的コントラスト学習目的を簡便に追加する。
したがって、このアプローチはより一般化され、既存のFSLメソッドにプラグインすることができる。
提案手法で使用する事前学習型意味特徴抽出器(大規模テキストコーパスから派生した)は,FSLを支援するための文脈的事前知識を提供する。
一般的なFSLデータセットで行った実験結果から,我々のアプローチは本質的に汎用的であり,既存のFSLベースラインを強く後押しすることを示す。
関連論文リスト
- SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Semantic Cross Attention for Few-shot Learning [9.529264466445236]
本稿では,ラベルテキストのセマンティックな特徴を補助的タスクとして見るためのマルチタスク学習手法を提案する。
提案モデルでは,単語埋め込み表現をセマンティックな特徴として用いて,埋め込みネットワークとセマンティックなクロスアテンションモジュールをトレーニングし,セマンティックな特徴を一般的な視覚的モーダルにブリッジする。
論文 参考訳(メタデータ) (2022-10-12T15:24:59Z) - Brief Introduction to Contrastive Learning Pretext Tasks for Visual
Representation [0.0]
教師なし学習手法のサブセットであるコントラスト学習を導入する。
対照的な学習の目的は、互いに近くにある同じサンプルから強化されたサンプルを埋め込んで、そうでないサンプルを押し下げることである。
我々は、最近公開されたコントラスト学習の戦略をいくつか提示し、視覚表現のためのプレテキストタスクに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-06T18:54:10Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Rich Semantics Improve Few-shot Learning [49.11659525563236]
アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
論文 参考訳(メタデータ) (2021-04-26T16:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。