論文の概要: DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning
- arxiv url: http://arxiv.org/abs/2309.05173v3
- Date: Mon, 18 Dec 2023 12:17:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 23:13:31.058384
- Title: DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning
- Title(参考訳): DePT:パラメータ効率の良い微調整のための分解プロンプトチューニング
- Authors: Zhengxiang Shi, Aldo Lipani
- Abstract要約: ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された低ランク行列に分解するDePTを提案する。
DePTは、いくつかのシナリオにおいて完全な微調整ベースラインを含む、最先端のPEFTアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.975436239088312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt tuning (PT), where a small amount of trainable soft (continuous)
prompt vectors is affixed to the input of language models (LM), has shown
promising results across various tasks and models for parameter-efficient
fine-tuning (PEFT). PT stands out from other PEFT approaches because it
maintains competitive performance with fewer trainable parameters and does not
drastically scale up its parameters as the model size expands. However, PT
introduces additional soft prompt tokens, leading to longer input sequences,
which significantly impacts training and inference time and memory usage due to
the Transformer's quadratic complexity. Particularly concerning for Large
Language Models (LLMs) that face heavy daily querying. To address this issue,
we propose Decomposed Prompt Tuning (DePT), which decomposes the soft prompt
into a shorter soft prompt and a pair of low-rank matrices that are then
optimised with two different learning rates. This allows DePT to achieve better
performance while saving over 20% memory and time costs compared to vanilla PT
and its variants, without changing trainable parameter sizes. Through extensive
experiments on 23 natural language processing (NLP) and vision-language (VL)
tasks, we demonstrate that DePT outperforms state-of-the-art PEFT approaches,
including the full fine-tuning baseline in some scenarios. Additionally, we
empirically show that DEPT grows more efficient as the model size increases.
Our further study reveals that DePT integrates seamlessly with
parameter-efficient transfer learning in the few-shot learning setting and
highlights its adaptability to various model architectures and sizes.
- Abstract(参考訳): 言語モデル(lm)の入力に少量の訓練可能なソフト(連続)プロンプトベクトルが固定されるプロンプトチューニング(pt)は、パラメータ効率の良い微調整(peft)のための様々なタスクやモデルに対して有望な結果を示している。
PTは、トレーニング可能なパラメータが少なくて競合性能を保ち、モデルのサイズが拡大するにつれてパラメータを劇的にスケールアップしないため、他のPEFTアプローチと際立っている。
しかし、PTはソフトプロンプトトークンを導入し、入力シーケンスが長くなり、Transformerの2次複雑さによるトレーニングや推論時間、メモリ使用量に大きな影響を及ぼす。
特に大きな言語モデル(llm)では、日々の大量のクエリに直面する。
この問題に対処するために,ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された2つの低ランク行列に分解するDecomposed Prompt Tuning (DePT)を提案する。
これにより、トレーニング可能なパラメータサイズを変更することなく、バニラPTとその変種と比較して20%以上のメモリと時間コストを節約しながら、DePTのパフォーマンスが向上する。
23の自然言語処理(NLP)と視覚言語(VL)タスクに関する広範な実験を通じて、DePTはいくつかのシナリオにおいて完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示した。
さらに,モデルサイズが大きくなるにつれてdeptがより効率的になることを示す。
さらに,DePTは数ショットの学習環境においてパラメータ効率のよい伝達学習とシームレスに統合され,様々なモデルアーキテクチャやサイズへの適応性を強調している。
関連論文リスト
- ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。
テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。
LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文 参考訳(メタデータ) (2024-02-18T01:20:00Z) - Soft Prompt Tuning for Cross-Lingual Transfer: When Less is More [9.230338573494622]
SPT(Soft Prompt Tuning)は、事前訓練された言語モデルを特定のタスクに適応するためのパラメータ効率のよい手法である。
本稿では,言語間移動におけるSPTの可能性について検討する。
論文 参考訳(メタデータ) (2024-02-06T07:52:30Z) - Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning
for Versatile Multimodal Modeling [42.42235704360381]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は、幅広いタスクにおいて優れた性能を示す。
これらの大規模化により、関心のあるタスクを前提とした、完全に専門的なモデルへの適応と展開が不可能になる。
本研究では,AdaLinkを,競合性能を実現する非侵入型PEFT技術として記述する。
論文 参考訳(メタデータ) (2023-10-18T16:43:08Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - How Does In-Context Learning Help Prompt Tuning? [55.78535874154915]
微調整された大きな言語モデルは、急速に拡大するスケールのために、ますます実用的ではないものになりつつある。
これはプロンプトチューニング(PT)のようなパラメータ効率のよい適応手法の使用を動機付け、凍ったモデルに少数のチューナブルな埋め込みを追加する。
近年,Singhalら (2022) はPTとICLを組み合わせた命令プロンプトチューニング (IPT) を提案している。
論文 参考訳(メタデータ) (2023-02-22T17:45:12Z) - AutoPEFT: Automatic Configuration Search for Parameter-Efficient
Fine-Tuning [77.61565726647784]
ニューラルアーキテクチャ検索の進歩により,自動PEFT設定選択のためのAutoPEFTを提案する。
本稿では,AutoPEFTが検出した構成が既存のPEFT法よりも大幅に優れており,FFTと同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-01-28T08:51:23Z) - FPT: Improving Prompt Tuning Efficiency via Progressive Training [84.25195519945215]
本稿では,即時チューニングの訓練効率を向上させるために,Fast Prompt Tuningを提案する。
我々は、FPTが30%以上のトレーニング計算を節約し、同等のパフォーマンスを実現することを示した。
論文 参考訳(メタデータ) (2022-11-13T08:00:29Z) - When does Parameter-Efficient Transfer Learning Work for Machine
Translation? [8.862707047517913]
以前の研究は、PEFTは機械翻訳(MT)ではうまく機能しないことを示している。
我々は,(1)パラメータ予算,(2)言語ペアの多種多様なセット,(3)事前学習モデルを考慮した,MT用PEFTの総合的な実証的研究を行った。
事前学習モデルが大きいPEFTを用いて、より小さなモデルで完全な微調整を行うことができ、訓練データサイズが小さい場合には、同じ事前学習モデルで完全な微調整を行う。
論文 参考訳(メタデータ) (2022-05-23T12:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。