論文の概要: PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model
Adaptation
- arxiv url: http://arxiv.org/abs/2208.10160v1
- Date: Mon, 22 Aug 2022 09:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:05:09.149679
- Title: PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model
Adaptation
- Title(参考訳): PANDA: Prompt Transferは効率的なモデル適応のための知識蒸留と出会う
- Authors: Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du and Dacheng Tao
- Abstract要約: 即時転送可能性(i)を正確に予測する新しい指標と,新しいPoTアプローチ(PANDA)を提案する。
我々のPANDAは、全てのタスクとモデルサイズにおいて、平均スコア(最大24.1%)でバニラPoTアプローチを一貫して上回ります。
- 参考スコア(独自算出の注目度): 103.57103957631067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-tuning, which freezes pretrained language models (PLMs) and only
fine-tunes few parameters of additional soft prompt, shows competitive
performance against full-parameter fine-tuning (i.e.model-tuning) when the PLM
has billions of parameters, but still performs poorly in the case of smaller
PLMs. Hence, prompt transfer (PoT), which initializes the target prompt with
the trained prompt of similar source tasks, is recently proposed to improve
over prompt-tuning. However, such a vanilla PoT approach usually achieves
sub-optimal performance, as (i) the PoT is sensitive to the similarity of
source-target pair and (ii) directly fine-tuning the prompt initialized with
source prompt on target task might lead to catastrophic forgetting of source
knowledge. In response to these problems, we propose a new metric to accurately
predict the prompt transferability (regarding (i)), and a novel PoT approach
(namely PANDA) that leverages the knowledge distillation technique to transfer
the "knowledge" from the source prompt to the target prompt in a subtle manner
and alleviate the catastrophic forgetting effectively (regarding (ii)).
Furthermore, to achieve adaptive prompt transfer for each source-target pair,
we use our metric to control the knowledge transfer in our PANDA approach.
Extensive and systematic experiments on 189 combinations of 21 source and 9
target datasets across 5 scales of PLMs demonstrate that: 1) our proposed
metric works well to predict the prompt transferability; 2) our PANDA
consistently outperforms the vanilla PoT approach by 2.3% average score (up to
24.1%) among all tasks and model sizes; 3) with our PANDA approach,
prompt-tuning can achieve competitive and even better performance than
model-tuning in various PLM scales scenarios. Code and models will be released
upon acceptance.
- Abstract(参考訳): 事前学習された言語モデル(plm)を凍結し、追加のソフトプロンプトのパラメータを微調整するプロンプトチューニングは、plmが数十億のパラメータを持つ場合でも、フルパラメータの微調整(すなわちモデルチューニング)に対する競合性能を示すが、小さなplmの場合でもパフォーマンスは低い。
したがって、ターゲットプロンプトを同じソースタスクのトレーニングされたプロンプトで初期化するプロンプト転送(pot)が、プロンプトチューニングを改善するために最近提案されている。
しかしながら、そのようなバニラPoTアプローチは、通常、準最適性能を達成する。
i)PoTは、ソースターゲット対の類似性に敏感であり、
(ii) 対象タスクのソースプロンプトで初期化されたプロンプトを直接微調整することは、ソース知識を壊滅的に忘れてしまう可能性がある。
これらの問題に対応するため、我々は、転送可能性(無視)を正確に予測する新しい指標を提案する。
(i)と、知識蒸留技術を利用して、ソースプロンプトからターゲットプロンプトへの「知識」を微妙な方法で伝達し、破滅的な忘れ物(注意)を効果的に緩和する新規なポットアプローチ(パンダ)
(ii)
さらに,各ソースとターゲットのペアに対して適応的なプロンプト転送を実現するために,パンダ手法の知識伝達を制御するために,我々の測定値を使用する。
5スケールのplmにまたがる21のソースと9のターゲットデータセットの189の組合せに関する広範囲で体系的な実験が示す。
1) 提案手法は, 即時転送可能性の予測に有効である。
2) PANDAは,全てのタスクおよびモデルサイズにおいて,バニラPoTアプローチを2.3%(最大24.1%)上回っている。
3) PANDAアプローチでは,様々な PLM スケールのシナリオにおけるモデルチューニングよりも,プロンプトチューニングの方が競争力があり,パフォーマンスも向上する。
コードとモデルは受け入れ次第リリースされる。
関連論文リスト
- Bayesian Multi-Task Transfer Learning for Soft Prompt Tuning [44.43258626098661]
我々は、ソースタスクからトレーニングソースプロンプトを介して知識を抽出する場合、ソースタスク間の相関を考慮し、ターゲットタスクへのより良い転送を行う必要があると論じる。
本稿では,ソースタスク間のプロンプトの後方分布を扱うベイズ的手法を提案する。
ベイジアンマルチタスク変換学習手法は,多くの環境において最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-13T16:57:02Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:54Z) - Multitask Prompt Tuning Enables Parameter-Efficient Transfer Learning [43.639430661322585]
マルチタスク・プロンプト・チューニング(MPT)を提案する。
MPTは複数のタスク固有のソースプロンプトから知識を抽出することで単一の転送可能なプロンプトを学習する。
次に、この共有プロンプトに対する乗算的低ランク更新を学習し、各下流ターゲットタスクに効率よく適応する。
論文 参考訳(メタデータ) (2023-03-06T03:25:59Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - DP-KB: Data Programming with Knowledge Bases Improves Transformer Fine
Tuning for Answer Sentence Selection [96.84143731242119]
トランスフォーマーは多くの知識集約(KI)タスクで素晴らしいパフォーマンスを示します。
しかし、暗黙の知識基盤(KB)として機能する能力は依然として限られている。
我々は、KB由来の文脈でトレーニングデータを豊かにする効率的なデータプログラミング手法を実装した。
論文 参考訳(メタデータ) (2022-03-17T20:23:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。