論文の概要: PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model
Adaptation
- arxiv url: http://arxiv.org/abs/2208.10160v1
- Date: Mon, 22 Aug 2022 09:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:05:09.149679
- Title: PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model
Adaptation
- Title(参考訳): PANDA: Prompt Transferは効率的なモデル適応のための知識蒸留と出会う
- Authors: Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du and Dacheng Tao
- Abstract要約: 即時転送可能性(i)を正確に予測する新しい指標と,新しいPoTアプローチ(PANDA)を提案する。
我々のPANDAは、全てのタスクとモデルサイズにおいて、平均スコア(最大24.1%)でバニラPoTアプローチを一貫して上回ります。
- 参考スコア(独自算出の注目度): 103.57103957631067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-tuning, which freezes pretrained language models (PLMs) and only
fine-tunes few parameters of additional soft prompt, shows competitive
performance against full-parameter fine-tuning (i.e.model-tuning) when the PLM
has billions of parameters, but still performs poorly in the case of smaller
PLMs. Hence, prompt transfer (PoT), which initializes the target prompt with
the trained prompt of similar source tasks, is recently proposed to improve
over prompt-tuning. However, such a vanilla PoT approach usually achieves
sub-optimal performance, as (i) the PoT is sensitive to the similarity of
source-target pair and (ii) directly fine-tuning the prompt initialized with
source prompt on target task might lead to catastrophic forgetting of source
knowledge. In response to these problems, we propose a new metric to accurately
predict the prompt transferability (regarding (i)), and a novel PoT approach
(namely PANDA) that leverages the knowledge distillation technique to transfer
the "knowledge" from the source prompt to the target prompt in a subtle manner
and alleviate the catastrophic forgetting effectively (regarding (ii)).
Furthermore, to achieve adaptive prompt transfer for each source-target pair,
we use our metric to control the knowledge transfer in our PANDA approach.
Extensive and systematic experiments on 189 combinations of 21 source and 9
target datasets across 5 scales of PLMs demonstrate that: 1) our proposed
metric works well to predict the prompt transferability; 2) our PANDA
consistently outperforms the vanilla PoT approach by 2.3% average score (up to
24.1%) among all tasks and model sizes; 3) with our PANDA approach,
prompt-tuning can achieve competitive and even better performance than
model-tuning in various PLM scales scenarios. Code and models will be released
upon acceptance.
- Abstract(参考訳): 事前学習された言語モデル(plm)を凍結し、追加のソフトプロンプトのパラメータを微調整するプロンプトチューニングは、plmが数十億のパラメータを持つ場合でも、フルパラメータの微調整(すなわちモデルチューニング)に対する競合性能を示すが、小さなplmの場合でもパフォーマンスは低い。
したがって、ターゲットプロンプトを同じソースタスクのトレーニングされたプロンプトで初期化するプロンプト転送(pot)が、プロンプトチューニングを改善するために最近提案されている。
しかしながら、そのようなバニラPoTアプローチは、通常、準最適性能を達成する。
i)PoTは、ソースターゲット対の類似性に敏感であり、
(ii) 対象タスクのソースプロンプトで初期化されたプロンプトを直接微調整することは、ソース知識を壊滅的に忘れてしまう可能性がある。
これらの問題に対応するため、我々は、転送可能性(無視)を正確に予測する新しい指標を提案する。
(i)と、知識蒸留技術を利用して、ソースプロンプトからターゲットプロンプトへの「知識」を微妙な方法で伝達し、破滅的な忘れ物(注意)を効果的に緩和する新規なポットアプローチ(パンダ)
(ii)
さらに,各ソースとターゲットのペアに対して適応的なプロンプト転送を実現するために,パンダ手法の知識伝達を制御するために,我々の測定値を使用する。
5スケールのplmにまたがる21のソースと9のターゲットデータセットの189の組合せに関する広範囲で体系的な実験が示す。
1) 提案手法は, 即時転送可能性の予測に有効である。
2) PANDAは,全てのタスクおよびモデルサイズにおいて,バニラPoTアプローチを2.3%(最大24.1%)上回っている。
3) PANDAアプローチでは,様々な PLM スケールのシナリオにおけるモデルチューニングよりも,プロンプトチューニングの方が競争力があり,パフォーマンスも向上する。
コードとモデルは受け入れ次第リリースされる。
関連論文リスト
- Bayesian Multi-Task Transfer Learning for Soft Prompt Tuning [44.43258626098661]
我々は、ソースタスクからトレーニングソースプロンプトを介して知識を抽出する場合、ソースタスク間の相関を考慮し、ターゲットタスクへのより良い転送を行う必要があると論じる。
本稿では,ソースタスク間のプロンプトの後方分布を扱うベイズ的手法を提案する。
ベイジアンマルチタスク変換学習手法は,多くの環境において最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-13T16:57:02Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Multitask Prompt Tuning Enables Parameter-Efficient Transfer Learning [43.639430661322585]
マルチタスク・プロンプト・チューニング(MPT)を提案する。
MPTは複数のタスク固有のソースプロンプトから知識を抽出することで単一の転送可能なプロンプトを学習する。
次に、この共有プロンプトに対する乗算的低ランク更新を学習し、各下流ターゲットタスクに効率よく適応する。
論文 参考訳(メタデータ) (2023-03-06T03:25:59Z) - ADEPT: A DEbiasing PrompT Framework [49.582497203415855]
ファインタニングは文脈化された単語の埋め込みを曖昧にするための応用手法である。
意味的な意味を持つ個別のプロンプトは、タスクを乱すのに有効であることが示されている。
本稿では, PLM をデバイアス化する方法であるADEPT を提案し, バイアス除去と表現能力の確保の微妙なバランスを維持しながら, 即時チューニングによる PLM のデバイアス化手法を提案する。
論文 参考訳(メタデータ) (2022-11-10T08:41:40Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - On Transferability of Prompt Tuning for Natural Language Understanding [63.29235426932978]
タスクやモデル間でのソフトプロンプトの転送可能性について検討する。
訓練されたソフトプロンプトは、同様のタスクにうまく移行し、PTを初期化してトレーニングを加速し、パフォーマンスを向上させることができる。
以上の結果から,知識伝達によるPTの改善は可能で有望であり,プロンプトのクロスタスク転送性はクロスモデル転送性よりも良好であることが示唆された。
論文 参考訳(メタデータ) (2021-11-12T13:39:28Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。