論文の概要: Exploiting Category Names for Few-Shot Classification with
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2211.16594v1
- Date: Tue, 29 Nov 2022 21:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:58:17.799813
- Title: Exploiting Category Names for Few-Shot Classification with
Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いたFew-Shot分類のためのカテゴリ名の生成
- Authors: Taihong Xiao, Zirui Wang, Liangliang Cao, Jiahui Yu, Shengyang Dai,
Ming-Hsuan Yang
- Abstract要約: 大規模データに事前訓練された視覚言語基礎モデルは、多くの視覚的理解タスクに強力なツールを提供する。
本稿では,カテゴリ名を用いて分類ヘッドを初期化することにより,少数ショット分類の性能を著しく向上させることができることを示す。
- 参考スコア(独自算出の注目度): 78.51975804319149
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language foundation models pretrained on large-scale data provide a
powerful tool for many visual understanding tasks. Notably, many
vision-language models build two encoders (visual and textual) that can map two
modalities into the same embedding space. As a result, the learned
representations achieve good zero-shot performance on tasks like image
classification. However, when there are only a few examples per category, the
potential of large vision-language models is often underperformed, mainly due
to the gap between a large number of parameters and a relatively small amount
of training data. This paper shows that we can significantly improve the
performance of few-shot classification by using the category names to
initialize the classification head. More interestingly, we can borrow the
non-perfect category names, or even names from a foreign language, to improve
the few-shot classification performance compared with random initialization.
With the proposed category name initialization method, our model obtains the
state-of-the-art performance on a number of few-shot image classification
benchmarks (e.g., 87.37\% on ImageNet and 96.08\% on Stanford Cars, both using
five-shot learning). We also investigate and analyze when the benefit of
category names diminishes and how to use distillation to improve the
performance of smaller models, providing guidance for future research.
- Abstract(参考訳): 大規模データに事前学習された視覚言語基礎モデルは、多くの視覚理解タスクに強力なツールを提供する。
多くの視覚言語モデルは、2つのモダリティを同じ埋め込み空間にマッピングできる2つのエンコーダ(視覚とテキスト)を構築している。
その結果、画像分類などのタスクにおいて、学習した表現はゼロショット性能がよい。
しかしながら、1つのカテゴリに少数の例しか存在しない場合、大きな視覚言語モデルのポテンシャルは、主に大量のパラメータと比較的少ないトレーニングデータの間のギャップのために、しばしば過小評価される。
本稿では,カテゴリ名を用いて分類ヘッドを初期化することにより,少数ショット分類の性能を大幅に向上できることを示す。
さらに興味深いことに、非完全カテゴリ名や外国語からの名前を借りて、ランダム初期化と比較して、少数ショットの分類性能を改善することができる。
提案するカテゴリ名初期化手法を用いて,数点画像分類ベンチマーク(imagenetでは87.37\%,スタンフォード車では96.08\%,5点学習では96.08\%)を用いて最新性能を得る。
また, カテゴリ名の効用が減少する時期や, 蒸留による小型モデルの性能向上について検討・分析し, 今後の研究へのガイダンスを提供する。
関連論文リスト
- Circles: Inter-Model Comparison of Multi-Classification Problems with
High Number of Classes [0.24554686192257422]
本稿では,対話型視覚分析ツールCirclesについて,多数の分類モデルと1つの視点における1Kクラスとの視覚的モデル間比較を行う。
プロトタイプでは,9種類のモデルと1Kクラスを比較した。
論文 参考訳(メタデータ) (2023-09-08T19:39:46Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。
本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文 参考訳(メタデータ) (2023-04-05T11:01:23Z) - Learning to Name Classes for Vision and Language Models [57.0059455405424]
大規模な視覚と言語モデルは、クラス固有のテキストクエリを画像コンテンツにマッピングすることで、印象的なゼロショット認識性能を達成することができる。
視覚的コンテンツの機能として,各クラスに対して最適な単語埋め込みを学習するために,利用可能なデータを活用することを提案する。
凍結したモデルに新しい単語の埋め込みを学習することで、新しいクラスに対してゼロショットの能力を保ち、新しいデータセットにモデルを適応しやすくし、潜在的に誤った、非記述的、曖昧なクラス名を調整することができる。
論文 参考訳(メタデータ) (2023-04-04T14:34:44Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Improving Few-shot Learning with Weakly-supervised Object Localization [24.3569501375842]
画像のクラス関連領域から特徴を抽出してクラス表現を生成する新しいフレームワークを提案する。
提案手法は, miniImageNet および tieredImageNet ベンチマークにおいて,ベースライン数ショットモデルよりも優れている。
論文 参考訳(メタデータ) (2021-05-25T07:39:32Z) - Aligning Visual Prototypes with BERT Embeddings for Few-Shot Learning [48.583388368897126]
ほとんどショット学習は、これまで目に見えないイメージのカテゴリを認識するための学習である。
画像クラスの名称を考慮に入れた手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T08:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。