論文の概要: InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.19777v1
- Date: Thu, 27 Feb 2025 05:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:40.810457
- Title: InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models
- Title(参考訳): InPK:ビジョンランゲージモデルのプロンプトに事前知識を注入する
- Authors: Shuchang Zhou,
- Abstract要約: 学習可能なトークンにクラス固有の事前知識を注入するInPKモデルを提案する。
また、テキスト調整に対応するための学習可能なテキスト・ツー・ビジョン・プロジェクション・レイヤも導入する。
実験では、InPKは複数のゼロ/ファウショット画像分類タスクにおいて最先端の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 6.5826904184572985
- License:
- Abstract: Prompt tuning has become a popular strategy for adapting Vision-Language Models (VLMs) to zero/few-shot visual recognition tasks. Some prompting techniques introduce prior knowledge due to its richness, but when learnable tokens are randomly initialized and disconnected from prior knowledge, they tend to overfit on seen classes and struggle with domain shifts for unseen ones. To address this issue, we propose the InPK model, which infuses class-specific prior knowledge into the learnable tokens during initialization, thus enabling the model to explicitly focus on class-relevant information. Furthermore, to mitigate the weakening of class information by multi-layer encoders, we continuously reinforce the interaction between learnable tokens and prior knowledge across multiple feature levels. This progressive interaction allows the learnable tokens to better capture the fine-grained differences and universal visual concepts within prior knowledge, enabling the model to extract more discriminative and generalized text features. Even for unseen classes, the learned interaction allows the model to capture their common representations and infer their appropriate positions within the existing semantic structure. Moreover, we introduce a learnable text-to-vision projection layer to accommodate the text adjustments, ensuring better alignment of visual-text semantics. Extensive experiments on 11 recognition datasets show that InPK significantly outperforms state-of-the-art methods in multiple zero/few-shot image classification tasks.
- Abstract(参考訳): プロンプトチューニングは、ビジョンランゲージモデル(VLM)をゼロ/フェーショットの視覚認識タスクに適用するための一般的な戦略となっている。
しかし、学習可能なトークンがランダムに初期化され、事前の知識から切り離された場合、彼らは目に見えないクラスに過度に適合し、目に見えないものに対してドメインシフトに苦労する傾向にある。
そこで本研究では,クラス固有の事前知識を初期化時に学習可能なトークンに注入するInPKモデルを提案する。
さらに,多層エンコーダによるクラス情報の弱化を緩和するために,学習可能なトークンと,複数の特徴レベルの事前知識との相互作用を継続的に強化する。
このプログレッシブな相互作用により、学習可能なトークンは、事前知識内の細かい相違や普遍的な視覚概念をよりよく捉え、より差別的で一般化されたテキスト特徴を抽出することができる。
未知のクラスであっても、学習された相互作用により、モデルは共通の表現をキャプチャし、既存のセマンティック構造の中で適切な位置を推測することができる。
さらに、学習可能なテキスト・ツー・ビジョン・プロジェクション・レイヤを導入し、テキスト調整を可能とし、ビジュアル・テキスト・セマンティクスのアライメントを向上する。
11の認識データセットに対する大規模な実験により、InPKは複数のゼロ/フェーショット画像分類タスクにおいて最先端の手法を大幅に上回っていることが示された。
関連論文リスト
- KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - AAPL: Adding Attributes to Prompt Learning for Vision-Language Models [6.32186874112557]
本稿では,学習可能なプロンプトのバイアスを誘発する際,高次クラス情報から低次視覚強調特徴を分離するための逆トークン埋め込みを提案する。
我々は11のデータセットに対して実験を行い、AAPLは、いくつかのショット学習、ゼロショット学習、クロスデータセット、ドメイン一般化タスクにおいて、既存の手法と比較して好成績を示した。
論文 参考訳(メタデータ) (2024-04-25T17:51:10Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Rich Semantics Improve Few-shot Learning [49.11659525563236]
アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
論文 参考訳(メタデータ) (2021-04-26T16:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。