論文の概要: Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models
- arxiv url: http://arxiv.org/abs/2308.11186v1
- Date: Tue, 22 Aug 2023 04:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 19:03:40.294574
- Title: Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models
- Title(参考訳): 汎用視覚言語モデルのための知識認識プロンプトチューニング
- Authors: Baoshuo Kan, Teng Wang, Wenpeng Lu, Xiantong Zhen, Weili Guan, Feng
Zheng
- Abstract要約: 本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
- 参考スコア(独自算出の注目度): 64.24227572048075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision-language models, e.g., CLIP, working with manually
designed prompts have demonstrated great capacity of transfer learning.
Recently, learnable prompts achieve state-of-the-art performance, which however
are prone to overfit to seen classes, failing to generalize to unseen classes.
In this paper, we propose a Knowledge-Aware Prompt Tuning (KAPT) framework for
vision-language models. Our approach takes inspiration from human intelligence
in which external knowledge is usually incorporated into recognizing novel
categories of objects. Specifically, we design two complementary types of
knowledge-aware prompts for the text encoder to leverage the distinctive
characteristics of category-related external knowledge. The discrete prompt
extracts the key information from descriptions of an object category, and the
learned continuous prompt captures overall contexts. We further design an
adaptation head for the visual encoder to aggregate salient attentive visual
cues, which establishes discriminative and task-aware visual representations.
We conduct extensive experiments on 11 widely-used benchmark datasets and the
results verify the effectiveness in few-shot image classification, especially
in generalizing to unseen categories. Compared with the state-of-the-art CoCoOp
method, KAPT exhibits favorable performance and achieves an absolute gain of
3.22% on new classes and 2.57% in terms of harmonic mean.
- Abstract(参考訳): 事前訓練された視覚言語モデル(例えばCLIP)は手動で設計したプロンプトで動作し、転送学習の能力を示す。
最近では、学習可能なプロンプトは最先端のパフォーマンスを達成するが、見過ごされる傾向にあり、目に見えないクラスに一般化することができない。
本稿では,視覚言語モデルのための知識認識型プロンプトチューニング(KAPT)フレームワークを提案する。
我々のアプローチは、外的知識が通常、新しい対象のカテゴリを認識することに組み込まれる人間の知性から着想を得ている。
具体的には,テキストエンコーダに対して,カテゴリー関連の外部知識の特徴を活用した知識認識プロンプトを2種類設計する。
離散プロンプトはオブジェクトカテゴリの記述からキー情報を抽出し、学習された連続プロンプトは全体のコンテキストをキャプチャする。
さらに,視覚エンコーダの適応ヘッドをデザインし,有意な視覚手がかりを集約し,識別とタスク対応の視覚表現を確立する。
11のベンチマークデータセットについて広範な実験を行い,特に未発見のカテゴリへの一般化において,少数の画像分類の有効性を検証した。
最先端のcocoop法と比較して、kaptは良好な性能を示し、新しいクラスでは3.22%、調和平均では2.57%の絶対利得を達成している。
関連論文リスト
- IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - AAPL: Adding Attributes to Prompt Learning for Vision-Language Models [6.32186874112557]
本稿では,学習可能なプロンプトのバイアスを誘発する際,高次クラス情報から低次視覚強調特徴を分離するための逆トークン埋め込みを提案する。
我々は11のデータセットに対して実験を行い、AAPLは、いくつかのショット学習、ゼロショット学習、クロスデータセット、ドメイン一般化タスクにおいて、既存の手法と比較して好成績を示した。
論文 参考訳(メタデータ) (2024-04-25T17:51:10Z) - Boosting Audio-visual Zero-shot Learning with Large Language Models [32.533844163120875]
我々はKDA(KnowleDge-Augmented Audio-visual Learning)というフレームワークを導入する。
提案したKDAは、一般的な3つのゼロショット学習データセットにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-21T01:18:23Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot
Learning [85.2093650907943]
機械に新しいカテゴリーを認識させるためのセマンティックガイド注意(SEGA)を提案する。
SEGAは意味的知識を使用して、視覚的特徴に注意を払うべきものについて、トップダウンの方法で視覚的知覚を導く。
セマンティックガイドによる注意は期待された機能を実現し、最先端の結果より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-08T08:03:44Z) - Class Knowledge Overlay to Visual Feature Learning for Zero-Shot Image
Classification [18.299463254965264]
クラス知識と視覚的特徴学習に基づく新しいゼロショット学習手法GAN-CSTを提案する。
提案されたモデルは最先端のアプローチよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2021-02-26T06:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。