論文の概要: DPL: Decoupled Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2308.10061v1
- Date: Sat, 19 Aug 2023 15:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:10:17.521820
- Title: DPL: Decoupled Prompt Learning for Vision-Language Models
- Title(参考訳): dpl:視覚言語モデルのためのプロンプト学習の分離
- Authors: Chen Xu, Yuhan Zhu, Guozhen Zhang, Haocheng Shen, Yixuan Liao, Xiaoxin
Chen, Gangshan Wu, Limin Wang
- Abstract要約: 本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
- 参考スコア(独自算出の注目度): 41.90997623029582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt learning has emerged as an efficient and effective approach for
transferring foundational Vision-Language Models (e.g., CLIP) to downstream
tasks. However, current methods tend to overfit to seen categories, thereby
limiting their generalization ability for unseen classes. In this paper, we
propose a new method, Decoupled Prompt Learning (DPL), which reformulates the
attention in prompt learning to alleviate this problem. Specifically, we
theoretically investigate the collaborative process between prompts and
instances (i.e., image patches/text tokens) by reformulating the original
self-attention into four separate sub-processes. Through detailed analysis, we
observe that certain sub-processes can be strengthened to bolster robustness
and generalizability by some approximation techniques. Furthermore, we
introduce language-conditioned textual prompting based on decoupled attention
to naturally preserve the generalization of text input. Our approach is
flexible for both visual and textual modalities, making it easily extendable to
multi-modal prompt learning. By combining the proposed techniques, our approach
achieves state-of-the-art performance on three representative benchmarks
encompassing 15 image recognition datasets, while maintaining
parameter-efficient. Moreover, our DPL does not rely on any auxiliary
regularization task or extra training data, further demonstrating its
remarkable generalization ability.
- Abstract(参考訳): プロンプト学習は、基礎的なビジョンランゲージモデル(例えばCLIP)を下流タスクに転送するための効率的かつ効果的なアプローチとして登場した。
しかし、現在のメソッドは見られているカテゴリに過度に適合しがちであり、それによって見当たらないクラスに対する一般化能力が制限される。
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法であるDecoupled Prompt Learning (DPL)を提案する。
具体的には,プロンプトとインスタンス(画像パッチ/テキストトークン)の協調プロセスについて理論的に検討する。
詳細な解析により,いくつかの近似手法により,ある種のサブプロセスの堅牢性と一般化性を高めることができる。
さらに,テキスト入力の一般化を自然に保ちつつ,分離された注意に基づく言語条件付きテキストプロンプトを導入する。
私たちのアプローチは、視覚とテキストの両方のモダリティに対して柔軟であり、マルチモーダルなプロンプトラーニングに容易に拡張できます。
提案手法を組み合わせることで,パラメータ効率を保ちながら,15の画像認識データセットを含む3つの代表的なベンチマークにおける最先端性能を実現する。
さらに,dplは補助正規化タスクや追加訓練データに依存しておらず,その顕著な一般化能力も示している。
関連論文リスト
- Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。
P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - COMMA: Co-Articulated Multi-Modal Learning [39.778958624066185]
本稿では,従来の手法の制約に対処するため,COMMA(Co-Articulated Multi-Modal Learning)を提案する。
本手法は,両枝の表現アライメントを高めるプロンプトを生成するために,両枝からのプロンプトを考察する。
提案手法は,新しいクラスへの一般化,新しいターゲットデータセット,目に見えないドメインシフトの3つのタスクにまたがって評価する。
論文 参考訳(メタデータ) (2023-12-30T15:47:36Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Text-driven Prompt Generation for Vision-Language Models in Federated
Learning [24.005620820818756]
FedTPG(Federated Text-Driven Prompt Generation)を提案する。
FedTPGは、複数のリモートクライアントにまたがる統一的なプロンプト生成ネットワークをスケーラブルに学習する。
9つの多様な画像分類データセットを総合的に評価した結果,既存のフェデレーション・プロンプト・ラーニング・手法よりも優れた手法であることが示唆された。
論文 参考訳(メタデータ) (2023-10-09T19:57:24Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。