論文の概要: Learning Generalizable Prompt for CLIP with Class Similarity Knowledge
- arxiv url: http://arxiv.org/abs/2502.11969v1
- Date: Mon, 17 Feb 2025 16:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:42.521332
- Title: Learning Generalizable Prompt for CLIP with Class Similarity Knowledge
- Title(参考訳): クラス類似知識を用いたCLIPのための一般化可能なプロンプトの学習
- Authors: Sehun Jung, Hyang-won Lee,
- Abstract要約: 本稿では,手作りプロンプトによって獲得されたクラス間の意味的関係を維持するために,SAR(Simisity Alignment Regularization)を提案する。
まず、ChatGPT-4oを使ってベースクラスに関連する新しいクラスを取得し、プロンプトチューニング中に潜在的に見つからないクラスとして利用する。
そして,基本クラスと新規クラスの両方を対象とすることにより,学習可能なプロンプトによって生成されたテキスト埋め込み間の類似性関係を手作りプロンプトの類似性関係と整合させる。
- 参考スコア(独自算出の注目度): 1.3198143828338362
- License:
- Abstract: In vision-language models (VLMs), prompt tuning has shown its effectiveness in adapting models to downstream tasks. However, learned prompts struggle to generalize to unseen classes, as they tend to overfit to the classes that are targeted during prompt tuning. Examining failure cases, we observed that learned prompts disrupt the semantics of unseen classes, generating text embeddings with incorrect semantic relationships among classes. To address this, we propose Similarity Alignment Regularization (SAR), which regularizes learnable prompts to preserve the semantic relationships among classes captured by hand-crafted prompts. Specifically, we first obtain novel classes related to base classes using ChatGPT-4o and utilize them as potential unseen classes during prompt tuning. Then, by targeting both base and novel classes, SAR aligns the similarity relationships among text embeddings generated by learnable prompts with the similarity relationships from hand-crafted prompts. Extensive experiments applying SAR to existing prompt tuning methods demonstrate its effectiveness in improving generalization to unseen classes.
- Abstract(参考訳): 視覚言語モデル(VLM)では、下流タスクにモデルを適用する場合、即時チューニングの有効性が示されている。
しかし、学習プロンプトは、即興チューニング中に対象とするクラスに過度に適合する傾向があるため、目に見えないクラスに一般化するのに苦労する。
失敗事例を調べたところ,学習プロンプトが未確認クラスのセマンティクスを阻害し,クラス間の誤ったセマンティクス関係を持つテキスト埋め込みを生成することがわかった。
そこで本研究では,手作りのプロンプトによって獲得されたクラス間の意味的関係を維持するために,学習可能なプロンプトを正規化するための類似性アライメント規則化(SAR)を提案する。
具体的には、まずChatGPT-4oを使ってベースクラスに関連する新しいクラスを取得し、プロンプトチューニング中に潜在的に見つからないクラスとして利用する。
そして,基本クラスと新規クラスの両方を対象とすることにより,学習可能なプロンプトによって生成されたテキスト埋め込み間の類似性関係を手作りプロンプトの類似性関係と整合させる。
SARを既存のプロンプトチューニング手法に適用した大規模な実験は、未知のクラスへの一般化を改善する効果を示す。
関連論文リスト
- Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP [24.22470408549266]
Aggregate-and-Adapted Prompt Embedding (AAPE) としての即時埋め込み
AAPEは、視覚言語理解タスクを含む、さまざまな下流データ分散とタスクに一般化できることが示されている。
また、AAPEは非標準およびOOD例の処理に特に有用であることを示す。
論文 参考訳(メタデータ) (2024-10-31T07:41:13Z) - Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model [78.77544632773404]
本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T03:59:23Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Visual-Language Prompt Tuning with Knowledge-guided Context Optimization [96.27531485377871]
代表的CoOpベースの作業は、学習可能なテキストトークンとクラストークンを組み合わせて、特定のテキスト知識を得る。
我々は,未知のクラスに対する学習可能なプロンプトの一般化能力を高めるために,新しい知識誘導コンテキスト最適化(KgCoOp)を導入する。
論文 参考訳(メタデータ) (2023-03-23T14:04:23Z) - LabelPrompt: Effective Prompt-based Learning for Relation Classification [31.291466190218912]
本稿では,関係分類タスクのための新しいプロンプト型学習手法であるLabelPromptを提案する。
GIVE MODEL CHOICES!'の直感により、まず関係ラベルを表すための追加トークンを定義し、これらのトークンを意味的初期化を伴う動詞としてみなす。
そして、予測関係と与えられた実体との整合性を緩和するために、コントラスト学習を伴うエンティティ認識モジュールを実装した。
論文 参考訳(メタデータ) (2023-02-16T04:06:25Z) - Generative Prompt Tuning for Relation Classification [21.027631157115135]
本稿では,関係分類を埋め込み問題として再構成する新しい生成的プロンプトチューニング手法を提案する。
さらに,エンティティ誘導型復号化と識別的関係スコアリングを設計し,推論中の関係を効果的かつ効率的に生成・調整する。
論文 参考訳(メタデータ) (2022-10-22T12:40:23Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - MGIMN: Multi-Grained Interactive Matching Network for Few-shot Text
Classification [9.9875634964736]
テキスト分類は、クラスごとにラベル付きテキストインスタンスがほとんどない、目に見えないクラスに一般化するのに苦労する。
本稿では,メタラーニングに基づくMGIMNを提案する。
論文 参考訳(メタデータ) (2022-04-11T08:58:55Z) - Open-Set Representation Learning through Combinatorial Embedding [62.05670732352456]
ラベル付きクラスとラベルなしクラスの両方の例に基づく表現学習を通じて、データセットにおける新しい概念を識別することに興味がある。
異種ラベル空間上の複数の教師付きメタクラス分類器によって与えられる構成知識を用いて、自然に未知のクラス内のサンプルをクラスタリングする学習手法を提案する。
提案アルゴリズムは,未確認クラスの識別性の向上と,新しいクラスに一般化可能な既知のクラス表現の学習を併用して,新しい概念を探索する。
論文 参考訳(メタデータ) (2021-06-29T11:51:57Z) - PTR: Prompt Tuning with Rules for Text Classification [64.1655047016891]
微調整された事前学習言語モデル(PLM)は、ほぼすべてのNLPタスクで素晴らしいパフォーマンスを実現している。
我々は,多クラステキスト分類のためのルール(PTR)による即時チューニングを提案する。
PTRは、各クラスの事前知識を即時チューニングにエンコードすることができる。
論文 参考訳(メタデータ) (2021-05-24T13:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。