論文の概要: PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model Adaptation
- arxiv url: http://arxiv.org/abs/2208.10160v2
- Date: Tue, 2 Apr 2024 07:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 14:31:02.327048
- Title: PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model Adaptation
- Title(参考訳): PANDA: Prompt Transferは効率的なモデル適応のための知識蒸留と出会う
- Authors: Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du, Dacheng Tao,
- Abstract要約: 即時転送可能性(i)を正確に予測する新しい指標と,新しいPoTアプローチ(PANDA)を提案する。
提案手法は,各タスクおよびモデルサイズの平均スコアの2.3%(最大24.1%)でバニラPoTアプローチを一貫して上回り,その3。
- 参考スコア(独自算出の注目度): 89.0074567748505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt Transfer (PoT) is a recently-proposed approach to improve prompt-tuning, by initializing the target prompt with the existing prompt trained on similar source tasks. However, such a vanilla PoT approach usually achieves sub-optimal performance, as (i) the PoT is sensitive to the similarity of source-target pair and (ii) directly fine-tuning the prompt initialized with source prompt on target task might lead to forgetting of the useful general knowledge learned from source task. To tackle these issues, we propose a new metric to accurately predict the prompt transferability (regarding (i)), and a novel PoT approach (namely PANDA) that leverages the knowledge distillation technique to alleviate the knowledge forgetting effectively (regarding (ii)). Extensive and systematic experiments on 189 combinations of 21 source and 9 target datasets across 5 scales of PLMs demonstrate that: 1) our proposed metric works well to predict the prompt transferability; 2) our PANDA consistently outperforms the vanilla PoT approach by 2.3% average score (up to 24.1%) among all tasks and model sizes; 3) with our PANDA approach, prompt-tuning can achieve competitive and even better performance than model-tuning in various PLM scales scenarios. We have publicly released our code in https://github.com/WHU-ZQH/PANDA.
- Abstract(参考訳): Prompt Transfer(PoT)は、ターゲットプロンプトと、同様のソースタスクでトレーニングされた既存のプロンプトを初期化することによって、プロンプトチューニングを改善するための、最近提案されたアプローチである。
しかしながら、そのようなバニラPoTアプローチは、通常、準最適性能を達成する。
i)PoTは、ソースターゲット対の類似性に敏感であり、
(II)ターゲットタスクのソースプロンプトで初期化したプロンプトを直接微調整することで、ソースタスクから学習した有用な汎用知識を忘れてしまう可能性がある。
これらの問題に対処するため,我々は,迅速な転送可能性(無視)を正確に予測する新しい指標を提案する。
(i)及び知識蒸留技術を活用した新しいPoTアプローチ(いわゆるPANDA)により、忘れる知識を効果的に(無視して)軽減する。
(II)。
21のソースと9のターゲットデータセットを5つのスケールで組み合わせた189の大規模かつ体系的な実験は、次のように示している。
1) 提案した指標は, 即時転送可能性の予測に有効である。
2) PANDAは,全てのタスクおよびモデルサイズにおいて,バニラPoTアプローチを2.3%(最大24.1%)上回っている。
3) PANDAアプローチでは,様々な PLM スケールのシナリオにおけるモデルチューニングよりも,プロンプトチューニングの方が競争力があり,パフォーマンスも向上する。
コードをhttps://github.com/WHU-ZQH/PANDA.comで公開しています。
関連論文リスト
- LoRA-TTT: Low-Rank Test-Time Training for Vision-Language Models [23.218237408724676]
視覚言語モデル(VLM)のための新しいテスト時間訓練(TTT)法であるLoRA-TTTを提案する。
テスト期間中にLoRAを導入し,パラメータのみを更新することにより,本手法は単純かつ効果的なTTTアプローチを提供する。
本手法は,メモリ消費や実行量を増やすことなく,これらの2つの損失を組み合わせ,多様な領域に適応することができる。
論文 参考訳(メタデータ) (2025-02-04T07:40:26Z) - Bayesian Multi-Task Transfer Learning for Soft Prompt Tuning [44.43258626098661]
我々は、ソースタスクからトレーニングソースプロンプトを介して知識を抽出する場合、ソースタスク間の相関を考慮し、ターゲットタスクへのより良い転送を行う必要があると論じる。
本稿では,ソースタスク間のプロンプトの後方分布を扱うベイズ的手法を提案する。
ベイジアンマルチタスク変換学習手法は,多くの環境において最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-13T16:57:02Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:54Z) - Multitask Prompt Tuning Enables Parameter-Efficient Transfer Learning [43.639430661322585]
マルチタスク・プロンプト・チューニング(MPT)を提案する。
MPTは複数のタスク固有のソースプロンプトから知識を抽出することで単一の転送可能なプロンプトを学習する。
次に、この共有プロンプトに対する乗算的低ランク更新を学習し、各下流ターゲットタスクに効率よく適応する。
論文 参考訳(メタデータ) (2023-03-06T03:25:59Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - DP-KB: Data Programming with Knowledge Bases Improves Transformer Fine
Tuning for Answer Sentence Selection [96.84143731242119]
トランスフォーマーは多くの知識集約(KI)タスクで素晴らしいパフォーマンスを示します。
しかし、暗黙の知識基盤(KB)として機能する能力は依然として限られている。
我々は、KB由来の文脈でトレーニングデータを豊かにする効率的なデータプログラミング手法を実装した。
論文 参考訳(メタデータ) (2022-03-17T20:23:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。