論文の概要: Differentiable Prompt Learning for Vision Language Models
- arxiv url: http://arxiv.org/abs/2501.00457v1
- Date: Tue, 31 Dec 2024 14:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:50.784382
- Title: Differentiable Prompt Learning for Vision Language Models
- Title(参考訳): 視覚言語モデルのための微分プロンプト学習
- Authors: Zhenhan Huang, Tejaswini Pedapati, Pin-Yu Chen, Jianxi Gao,
- Abstract要約: 本稿では,DPL(di differentiable prompt learning)という,識別可能なプロンプト学習手法を提案する。
DPLは最適化問題として定式化され、各層に追加するプロンプトの最適コンテキスト長を自動的に決定する。
DPL法は,限られたデータのみを用いることで,信頼性の高い深い連続的なプロンプト構成を実現できることを実証的に見出した。
- 参考スコア(独自算出の注目度): 49.132774679968456
- License:
- Abstract: Prompt learning is an effective way to exploit the potential of large-scale pre-trained foundational models. Continuous prompts parameterize context tokens in prompts by turning them into differentiable vectors. Deep continuous prompts insert prompts not only in the input but also in the intermediate hidden representations. Manually designed deep continuous prompts exhibit a remarkable improvement compared to the zero-shot pre-trained model on downstream tasks. How to automate the continuous prompt design is an underexplored area, and a fundamental question arises, is manually designed deep prompt strategy optimal? To answer this question, we propose a method dubbed differentiable prompt learning (DPL). The DPL method is formulated as an optimization problem to automatically determine the optimal context length of the prompt to be added to each layer, where the objective is to maximize the performance. We test the DPL method on the pre-trained CLIP. We empirically find that by using only limited data, our DPL method can find deep continuous prompt configuration with high confidence. The performance on the downstream tasks exhibits the superiority of the automatic design: our method boosts the average test accuracy by 2.60% on 11 datasets compared to baseline methods. Besides, our method focuses only on the prompt configuration (i.e. context length for each layer), which means that our method is compatible with the baseline methods that have sophisticated designs to boost the performance. The DPL method can be deployed to large language models or computer vision models at no cost.
- Abstract(参考訳): プロンプト学習は、大規模な事前訓練された基礎モデルの可能性を活用するための効果的な方法である。
連続プロンプトは、異なるベクトルに変換することで、プロンプト内でコンテキストトークンをパラメータ化する。
深い連続プロンプトは入力だけでなく中間の隠蔽表現にもプロンプトを挿入する。
手動設計の深部連続プロンプトは、下流タスクにおけるゼロショット事前訓練モデルと比較して顕著に改善されている。
継続的プロンプト設計の自動化は未調査領域であり、根本的な疑問が生じ、手動でディーププロンプト戦略を最適に設計するか?
そこで本研究では,DPL(diffariable prompt learning)と呼ばれる手法を提案する。
DPL法は最適化問題として定式化され、各層に付加されるプロンプトの最適コンテキスト長を自動的に決定する。
事前学習したCLIP上でDPL法をテストする。
DPL法は,限られたデータのみを用いることで,信頼性の高い深い連続的なプロンプト構成を実現できることを実証的に見出した。
提案手法は,11データセットの平均テスト精度をベースライン法と比較して2.60%向上させる。
さらに,本手法では,プロンプト設定(各レイヤのコンテキスト長)のみに焦点を合わせ,性能向上のために洗練された設計を施したベースラインメソッドと互換性がある。
DPL法は大規模言語モデルやコンピュータビジョンモデルに無償でデプロイすることができる。
関連論文リスト
- IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.82812214830023]
効率的なプロンプティング手法は幅広い注目を集めている。
本稿では,異なるプロンプト成分に対する自動プロンプトエンジニアリングと連続空間および離散空間におけるプロンプト圧縮について論じる。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - LAMM: Label Alignment for Multi-Modal Prompt Learning [17.478967970736115]
我々は、下流データセットのカテゴリ埋め込みをエンドツーエンドのトレーニングによって調整できる、textbfLAMMという革新的なラベルアライメント手法を提案する。
本手法は,既存のマルチモーダル・プロンプト学習モデルの性能を大幅に向上させる。
提案手法は,他の素早いチューニング手法と比較して,連続学習の優位性を示す。
論文 参考訳(メタデータ) (2023-12-13T15:29:52Z) - When Prompt-based Incremental Learning Does Not Meet Strong Pretraining [36.0889029038102]
本研究では,学習可能な適応型プロンプトジェネレータ(APG)を開発した。
鍵となるのは、プロンプト検索と学習プロセスを学習可能なプロンプトジェネレータに統一することである。
本手法は, 事前学習を伴わずに, 先進的な漸進的学習法を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-21T03:33:21Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - Making Pre-trained Language Models End-to-end Few-shot Learners with
Contrastive Prompt Tuning [41.15017636192417]
CP-Tuning(CP-Tuning)は、言語モデルのための最初のエンドツーエンドのPrompt Tuningフレームワークである。
完全にトレーニング可能なプロンプトパラメータを持つタスク不変の連続プロンプトエンコーディング技術と統合されている。
IRシステムや異なるPLMで使用される様々な言語理解タスクの実験は、CP-Tuningが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-04-01T02:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。