論文の概要: Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2303.06571v2
- Date: Thu, 17 Aug 2023 08:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 00:37:46.235615
- Title: Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models
- Title(参考訳): 一般化可能な視覚言語モデルのための勾配制御メタプロンプト学習
- Authors: Juncheng Li, Minghe Gao, Longhui Wei, Siliang Tang, Wenqiao Zhang,
Mengze Li, Wei Ji, Qi Tian, Tat-Seng Chua, Yueting Zhuang
- Abstract要約: グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
- 参考スコア(独自算出の注目度): 137.74524357614285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt tuning, a recently emerging paradigm, enables the powerful
vision-language pre-training models to adapt to downstream tasks in a parameter
-- and data -- efficient way, by learning the ``soft prompts'' to condition
frozen pre-training models. Though effective, it is particularly problematic in
the few-shot scenario, where prompt tuning performance is sensitive to the
initialization and requires a time-consuming process to find a good
initialization, thus restricting the fast adaptation ability of the
pre-training models. In addition, prompt tuning could undermine the
generalizability of the pre-training models, because the learnable prompt
tokens are easy to overfit to the limited training samples. To address these
issues, we introduce a novel Gradient-RegulAted Meta-prompt learning (GRAM)
framework that jointly meta-learns an efficient soft prompt initialization for
better adaptation and a lightweight gradient regulating function for strong
cross-domain generalizability in a meta-learning paradigm using only the
unlabeled image-text pre-training data. Rather than designing a specific prompt
tuning method, our GRAM can be easily incorporated into various prompt tuning
methods in a model-agnostic way, and comprehensive experiments show that GRAM
brings about consistent improvement for them in several settings (i.e.,
few-shot learning, cross-domain generalization, cross-dataset generalization,
etc.) over 11 datasets. Further, experiments show that GRAM enables the
orthogonal methods of textual and visual prompt tuning to work in a
mutually-enhanced way, offering better generalizability beyond the uni-modal
prompt tuning methods.
- Abstract(参考訳): 最近登場したパラダイムであるプロンプトチューニングは,‘soft prompts’を学習して,凍結したプレトレーニングモデルを条件付けすることで,強力な視覚言語プレトレーニングモデルによるパラメーターとデータによるダウンストリームタスクへの適応を可能にする。
迅速なチューニング性能が初期化に敏感であり、優れた初期化を見つけるのに時間がかかるため、事前学習モデルの高速適応能力が制限されるという、数発のシナリオでは特に問題となる。
さらに、学習可能なプロンプトトークンは限られたトレーニングサンプルに過度に適合するため、プロンプトチューニングは事前トレーニングモデルの一般化性を損なう可能性がある。
これらの問題に対処するために,適応性を向上させるための効率的なソフトプロンプト初期化と,ラベルなし画像テキスト事前学習データのみを用いたメタラーニングパラダイムにおける強力なクロスドメイン一般化性のための軽量な勾配調整関数を組み合わせた,新しいグラデーション調整メタプロンプト学習(gram)フレームワークを提案する。
GRAMは特定のプロンプトチューニングメソッドを設計するのではなく、モデルに依存しない方法で様々なプロンプトチューニングメソッドに簡単に組み込むことができ、包括的な実験により、GRAMはいくつかの設定(ショットラーニング、クロスドメインの一般化、クロスデータセットの一般化など)でそれらを一貫した改善をもたらすことが示された。
さらに、実験により、GRAMはテキストおよび視覚的プロンプトチューニングの直交的手法を相互に強化された方法で動作させることを可能にし、ユニモーダル・プロンプトチューニング法よりも優れた一般化性を提供する。
関連論文リスト
- Context-Aware Multimodal Pretraining [72.04020920042574]
視覚言語モデルをトレーニングすることで,数ショット適応を著しく向上させることができることを示す。
テストタイムのサンプル効率は最大で4倍改善され、平均的な数ショット適応率は5%以上向上した。
論文 参考訳(メタデータ) (2024-11-22T17:55:39Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - Read-only Prompt Optimization for Vision-Language Few-shot Learning [20.66798356082751]
学習可能なプロンプトは、自己アテンションモジュールの内部表現に影響を与える可能性がある。
本稿では,リードオンリーのプロンプト最適化(RPO)を提案する。
実験により, RPOはCLIPとCoCoOpより, ベース・ツー・ニューな一般化とドメインの一般化に優れることが示された。
論文 参考訳(メタデータ) (2023-08-29T01:22:30Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - InfoPrompt: Information-Theoretic Soft Prompt Tuning for Natural
Language Understanding [51.48361798508375]
我々は,プロンプトと他のモデルパラメータ間の相互情報の最大化として,ソフトプロンプトチューニングを定式化する情報理論フレームワークを開発する。
本稿では,インフォプロンプトがプロンプトチューニングの収束を著しく加速し,従来のプロンプトチューニング手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-06-08T04:31:48Z) - Self-supervised Meta-Prompt Learning with Meta-Gradient Regularization
for Few-shot Generalization [40.45470744120691]
MEta-gradient regularization for few-shot generalization (SUPMER)による自己改善メタプロンプト学習フレームワーク
本稿では,Meta-gradient regularization for few-shot generalization (SUPMER)を用いた自己改善メタプロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-22T05:04:21Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。