論文の概要: Generalizable Prompt Tuning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.03189v3
- Date: Wed, 22 Jan 2025 07:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:46.132573
- Title: Generalizable Prompt Tuning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための一般化可能なプロンプトチューニング
- Authors: Qian Zhang,
- Abstract要約: 学習可能なソフトプロンプトは下流のタスクではよく機能するが、一般化性に欠ける。
本研究は,ソフトプロンプトと手作りプロンプトをテキストモダリティの2つのビューとして扱うことで,タスク固有および一般的な意味情報をよりうまくまとめることができることを示した。
より表現力のあるプロンプトを生成するために、視覚的モダリティからのクラスワイド増強を導入し、より広い範囲の未確認クラスに対して大きなロバスト性をもたらす。
- 参考スコア(独自算出の注目度): 3.1008306011364644
- License:
- Abstract: Prompt tuning for vision-language models such as CLIP involves optimizing the text prompts used to generate image-text pairs for specific downstream tasks. While hand-crafted or template-based prompts are generally applicable to a wider range of unseen classes, they tend to perform poorly in downstream tasks (i.e., seen classes). Learnable soft prompts, on the other hand, often perform well in downstream tasks but lack generalizability. Additionally, prior research has predominantly concentrated on the textual modality, with very few studies attempting to explore the prompt's generalization potential from the visual modality. Keeping these limitations in mind, we investigate how to prompt tuning to obtain both a competitive downstream performance and generalization. The study shows that by treating soft and hand-crafted prompts as dual views of the textual modality, and maximizing their mutual information, we can better ensemble task-specific and general semantic information. Moreover, to generate more expressive prompts, the study introduces a class-wise augmentation from the visual modality, resulting in significant robustness to a wider range of unseen classes. Extensive evaluations on several benchmarks report that the proposed approach achieves competitive results in terms of both task-specific performance and general abilities.
- Abstract(参考訳): CLIPのようなビジョン言語モデルのプロンプトチューニングでは、特定の下流タスクのための画像テキストペアを生成するために使用されるテキストプロンプトを最適化する。
手作りのプロンプトやテンプレートベースのプロンプトは一般的に、目に見えない幅広いクラスに適用できるが、下流のタスク(例えば、目に見えないクラス)ではパフォーマンスが悪くなる傾向がある。
一方、学習可能なソフトプロンプトは下流のタスクではよく機能するが、一般化性に欠ける。
さらに、先行研究は主にテキストのモダリティに集中しており、視覚のモダリティからプロンプトの一般化の可能性を探究する研究はほとんどない。
これらの制約を念頭に置いて、競争力のある下流性能と一般化の両方を得るために、チューニングを迅速に行う方法について検討する。
本研究は,ソフトプロンプトと手作りプロンプトをテキストモダリティの双対ビューとして扱うことにより,それらの相互情報を最大化することにより,タスク特化情報と一般的な意味情報をよりうまくアンサンブルすることができることを示す。
さらに、より表現力のあるプロンプトを生成するために、視覚的モダリティからのクラスワイド増強を導入し、より広い範囲の未確認クラスに顕著なロバスト性をもたらす。
いくつかのベンチマークでは、提案手法はタスク固有の性能と一般的な能力の両面で競合する結果が得られると報告されている。
関連論文リスト
- Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。
P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - COMMA: Co-Articulated Multi-Modal Learning [39.778958624066185]
本稿では,従来の手法の制約に対処するため,COMMA(Co-Articulated Multi-Modal Learning)を提案する。
本手法は,両枝の表現アライメントを高めるプロンプトを生成するために,両枝からのプロンプトを考察する。
提案手法は,新しいクラスへの一般化,新しいターゲットデータセット,目に見えないドメインシフトの3つのタスクにまたがって評価する。
論文 参考訳(メタデータ) (2023-12-30T15:47:36Z) - Tuning Multi-mode Token-level Prompt Alignment across Modalities [48.39511580746271]
本稿では,多モードのトークンレベルチューニングフレームワークを提案し,モジュール間のプロンプトトークンの集合を学習・調整する。
具体的には、1) 多様な意味表現を保証するマルチモードプロンプト発見、2) トークンレベルのアライメント、そして、きめ細かい類似性を探索する。
一般的な画像認識ベンチマークの実験では、我々のアプローチのより優れた一般化と少ないショット能力を示している。
論文 参考訳(メタデータ) (2023-09-25T03:20:09Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - CoPL: Contextual Prompt Learning for Vision-Language Understanding [21.709017504227823]
画像の局所的な特徴にプロンプトを調整できるコンテキスト型プロンプト学習(CoPL)フレームワークを提案する。
これまでの研究における重要なイノベーションは、素早い学習プロセスの一部としてローカルな画像機能を使うこと、そしてさらに重要なのは、そのタスクに適したローカルな機能に基づいてこれらのプロンプトを重み付けすることである。
本手法は, 工法の現状と比較して, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-07-03T10:14:33Z) - On the Role of Attention in Prompt-tuning [90.97555030446563]
本研究では,一層アテンションアーキテクチャのプロンプトチューニングについて検討し,文脈混合モデルについて検討する。
ソフトマックス・プロンプト・アテンションは, ソフトマックス・自己アテンションやリニア・プロンプト・アテンションよりも明らかに表現力が高いことを示す。
また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。
論文 参考訳(メタデータ) (2023-06-06T06:23:38Z) - Visual-Language Prompt Tuning with Knowledge-guided Context Optimization [96.27531485377871]
代表的CoOpベースの作業は、学習可能なテキストトークンとクラストークンを組み合わせて、特定のテキスト知識を得る。
我々は,未知のクラスに対する学習可能なプロンプトの一般化能力を高めるために,新しい知識誘導コンテキスト最適化(KgCoOp)を導入する。
論文 参考訳(メタデータ) (2023-03-23T14:04:23Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Prompt Learning with Optimal Transport for Vision-Language Models [25.928455328563402]
複数の包括的プロンプトを学習し、内在的属性や外在的文脈などのカテゴリの特徴を多様に記述する。
この問題を解決するために,視覚とテキストのモダリティに最適なトランスポートを提案する。
内ループでは、視覚的特徴とプロンプトをシンクホーンアルゴリズムで調整するために最適な輸送距離を最適化する一方、外ループでは、教師付きデータからこの距離でプロンプトを学習する。
論文 参考訳(メタデータ) (2022-10-03T22:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。