論文の概要: Visual-Language Prompt Tuning with Knowledge-guided Context Optimization
- arxiv url: http://arxiv.org/abs/2303.13283v1
- Date: Thu, 23 Mar 2023 14:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 14:08:31.210449
- Title: Visual-Language Prompt Tuning with Knowledge-guided Context Optimization
- Title(参考訳): 知識誘導コンテキスト最適化による視覚言語プロンプトチューニング
- Authors: Hantao Yao, Rui Zhang, Changsheng Xu
- Abstract要約: 代表的CoOpベースの作業は、学習可能なテキストトークンとクラストークンを組み合わせて、特定のテキスト知識を得る。
我々は,未知のクラスに対する学習可能なプロンプトの一般化能力を高めるために,新しい知識誘導コンテキスト最適化(KgCoOp)を導入する。
- 参考スコア(独自算出の注目度): 96.27531485377871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt tuning is an effective way to adapt the pre-trained visual-language
model (VLM) to the downstream task using task-related textual tokens.
Representative CoOp-based work combines the learnable textual tokens with the
class tokens to obtain specific textual knowledge. However, the specific
textual knowledge is the worse generalization to the unseen classes because it
forgets the essential general textual knowledge having a strong generalization
ability. To tackle this issue, we introduce a novel Knowledge-guided Context
Optimization (KgCoOp) to enhance the generalization ability of the learnable
prompt for unseen classes. The key insight of KgCoOp is that forgetting about
essential knowledge can be alleviated by reducing the discrepancy between the
learnable prompt and the hand-crafted prompt. Especially, KgCoOp minimizes the
discrepancy between the textual embeddings generated by learned prompts and the
hand-crafted prompts. Finally, adding the KgCoOp upon the contrastive loss can
make a discriminative prompt for both seen and unseen tasks. Extensive
evaluation of several benchmarks demonstrates that the proposed
Knowledge-guided Context Optimization is an efficient method for prompt tuning,
\emph{i.e.,} achieves better performance with less training time.
- Abstract(参考訳): プロンプトチューニングは、タスク関連のテキストトークンを用いて、事前訓練された視覚言語モデル(VLM)を下流タスクに適応させる効果的な方法である。
代表的CoOpベースの作業は、学習可能なテキストトークンとクラストークンを組み合わせて、特定のテキスト知識を得る。
しかし、特定のテキスト知識は、強力な一般化能力を持つ本質的なテキスト知識を忘れてしまうため、目に見えないクラスへのより悪い一般化である。
そこで本研究では,学習可能なプロンプトの一般化能力を向上させるための新しい知識誘導コンテキスト最適化(kgcoop)を提案する。
KgCoOpの重要な洞察は、学習可能なプロンプトと手作りのプロンプトとの相違を減らすことで、本質的な知識を忘れることが軽減されるということである。
特に、KgCoOpは、学習プロンプトによって生成されたテキスト埋め込みと手作りプロンプトとの差を最小限にする。
最後に、対照的な損失にKgCoOpを追加することで、見えないタスクと見えないタスクの両方に差別的なプロンプトを与えることができる。
いくつかのベンチマークを網羅的に評価したところ、提案した知識誘導コンテキスト最適化はプロンプトチューニングの効率的な方法であることがわかった。
関連論文リスト
- IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - Generalizable Prompt Tuning for Vision-Language Models [3.1008306011364644]
学習可能なソフトプロンプトは下流のタスクではよく機能するが、一般化性に欠ける。
本研究は,ソフトプロンプトと手作りプロンプトをテキストモダリティの2つのビューとして扱うことで,タスク固有および一般的な意味情報をよりうまくまとめることができることを示した。
より表現力のあるプロンプトを生成するために、視覚的モダリティからのクラスワイド増強を導入し、より広い範囲の未確認クラスに対して大きなロバスト性をもたらす。
論文 参考訳(メタデータ) (2024-10-04T07:02:13Z) - Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。
P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - AAPL: Adding Attributes to Prompt Learning for Vision-Language Models [6.32186874112557]
本稿では,学習可能なプロンプトのバイアスを誘発する際,高次クラス情報から低次視覚強調特徴を分離するための逆トークン埋め込みを提案する。
我々は11のデータセットに対して実験を行い、AAPLは、いくつかのショット学習、ゼロショット学習、クロスデータセット、ドメイン一般化タスクにおいて、既存の手法と比較して好成績を示した。
論文 参考訳(メタデータ) (2024-04-25T17:51:10Z) - TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model [78.77544632773404]
本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T03:59:23Z) - PRE: Vision-Language Prompt Learning with Reparameterization Encoder [24.855142164168605]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。
最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。
非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文 参考訳(メタデータ) (2023-09-14T14:48:01Z) - InfoPrompt: Information-Theoretic Soft Prompt Tuning for Natural
Language Understanding [51.48361798508375]
我々は,プロンプトと他のモデルパラメータ間の相互情報の最大化として,ソフトプロンプトチューニングを定式化する情報理論フレームワークを開発する。
本稿では,インフォプロンプトがプロンプトチューニングの収束を著しく加速し,従来のプロンプトチューニング手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-06-08T04:31:48Z) - KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization
for Relation Extraction [111.74812895391672]
シナジスティック最適化(KnowPrompt)を用いた知識認識型Promptチューニング手法を提案する。
関係ラベルに含まれる潜在知識をインジェクトして,学習可能な仮想型語と解答語で構築する。
論文 参考訳(メタデータ) (2021-04-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。