論文の概要: ADePT: Adaptive Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning
- arxiv url: http://arxiv.org/abs/2501.03291v1
- Date: Mon, 06 Jan 2025 08:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:53.695097
- Title: ADePT: Adaptive Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning
- Title(参考訳): ADePT:パラメータ効率の良い微調整のための適応分解プロンプトチューニング
- Authors: Pengwei Tang, Xiaolin Hu, Yong Liu,
- Abstract要約: Prompt Tuning (PT)は、事前訓練された大規模言語モデル(PLM)の下流タスクへの適応を可能にする。
Decomposed Prompt Tuning (DePT) は優れた適応能力を示した。
textbfAdaptive textbfDecomposed textbfPrompt textbfTuning (ADePT)を紹介する。
- 参考スコア(独自算出の注目度): 23.511954119467735
- License:
- Abstract: Prompt Tuning (PT) enables the adaptation of Pre-trained Large Language Models (PLMs) to downstream tasks by optimizing a small amount of soft virtual tokens, which are prepended to the input token embeddings. Recently, Decomposed Prompt Tuning (DePT) has demonstrated superior adaptation capabilities by decomposing the soft prompt into a shorter soft prompt and a pair of low-rank matrices. The product of the pair of low-rank matrices is added to the input token embeddings to offset them. Additionally, DePT achieves faster inference compared to PT due to the shorter soft prompt. However, in this paper, we find that the position-based token embedding offsets of DePT restricts its ability to generalize across diverse model inputs, and that the shared embedding offsets across many token embeddings result in sub-optimization. To tackle these issues, we introduce \textbf{A}daptive \textbf{De}composed \textbf{P}rompt \textbf{T}uning (ADePT), which is composed of a short soft prompt and a shallow token-shared feed-forward neural network. ADePT utilizes the token-shared feed-forward neural network to learn the embedding offsets for each token, enabling adaptive embedding offsets that vary according to the model input and better optimization of token embedding offsets. This enables ADePT to achieve superior adaptation performance without requiring more inference time or additional trainable parameters compared to vanilla PT and its variants. In comprehensive experiments across 23 natural language processing (NLP) tasks and 4 typical PLMs of different scales, we show that ADePT consistently surpasses the leading parameter-efficient fine-tuning (PEFT) methods, and even outperforms the full fine-tuning baseline in certain scenarios. Code is available at \url{https://github.com/HungerPWAY/ADePT}.
- Abstract(参考訳): Prompt Tuning (PT)は、入力トークンの埋め込みに先立って、少量のソフト仮想トークンを最適化することにより、事前訓練された大規模言語モデル(PLM)を下流タスクに適応させることができる。
近年,Decomposed Prompt Tuning (DePT)はソフトプロンプトを短いソフトプロンプトと一対の低ランク行列に分解することで,優れた適応性を示した。
一対の低ランク行列の積を入力トークン埋め込みに追加してオフセットする。
さらに、DePTはソフトプロンプトが短いため、PTと比較して高速な推論を実現する。
しかし,本論文では,DePTのオフセットを位置ベースとしたトークン埋め込みは,様々なモデル入力にまたがる一般化を制限し,多くのトークン埋め込みにまたがる共有埋め込みオフセットがサブ最適化をもたらすことを見出した。
これらの問題に対処するために、短いソフトプロンプトと浅いトークン共有フィードフォワードニューラルネットワークからなる、 \textbf{A}daptive \textbf{De}composed \textbf{P}rompt \textbf{T}uning (ADePT)を導入する。
ADePTはトークン共有フィードフォワードニューラルネットワークを使用して、各トークンの埋め込みオフセットを学習し、モデル入力に応じて変化する適応的な埋め込みオフセットと、トークン埋め込みオフセットの最適化を改善する。
これにより、ADePTは、バニラPTとその変種と比較して、推論時間や追加のトレーニング可能なパラメータを必要とせずに、優れた適応性能を実現することができる。
23の自然言語処理(NLP)タスクと4つの異なるスケールの典型的なPLMからなる包括的実験において、ADePTは主要なパラメータ効率の微調整(PEFT)手法を一貫して超越し、特定のシナリオにおいて完全な微調整ベースラインを上回ります。
コードは \url{https://github.com/HungerPWAY/ADePT} で入手できる。
関連論文リスト
- ACCEPT: Adaptive Codebook for Composite and Efficient Prompt Tuning [26.43363174779337]
複合・効率的なプロンプトチューニングのための適応型コードブック(ACCEPT)を提案する。
本手法では,すべてのソフトプロンプトが,学習可能なコードブックベクトルの集合を各部分空間で共有できる,製品量子化(PQ)の概念について述べる。
言語モデルのパラメータのわずか0.3%をチューニングすることで、17の多様な自然言語タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-10T07:48:53Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Attention Prompt Tuning: Parameter-efficient Adaptation of Pre-trained
Models for Spatiotemporal Modeling [32.603558214472265]
本稿では,アクション認識などのビデオベースアプリケーションに対して,Attention Prompt Tuning(APT)を導入する。
APTは、バックボーンを凍結させながら微調整中にデータトークンとともに学習可能なプロンプトのセットを注入する。
提案手法は,FLOPとレイテンシを著しく低減するとともに,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:41Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning [14.975436239088312]
ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された低ランク行列に分解するDePTを提案する。
DePTは、いくつかのシナリオにおいて、完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-11T00:02:05Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model
Fine-tuning [32.84435258519842]
ゲート機構により,粒度の細かいトークンレベルと粗い層レベルの両方でプレフィックスを調整できる適応型プリフィックスチューニング(APT)を提案する。
SuperGLUEとNERデータセットの実験は、APTの有効性を示している。
論文 参考訳(メタデータ) (2023-05-24T14:51:01Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - BBTv2: Pure Black-Box Optimization Can Be Comparable to Gradient Descent
for Few-Shot Learning [83.26610968655815]
Black-Box Tuningは、言語モデルの入力に先立って、連続的なプロンプトトークンを最適化するためのデリバティブフリーなアプローチである。
BBTv2は、言語モデルをグラデーションベースの最適化に匹敵する結果を得るために駆動する、純粋なブラックボックス最適化手法である。
論文 参考訳(メタデータ) (2022-05-23T11:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。