論文の概要: MerA: Merging Pretrained Adapters For Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2308.15982v1
- Date: Wed, 30 Aug 2023 12:10:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 13:23:12.823725
- Title: MerA: Merging Pretrained Adapters For Few-Shot Learning
- Title(参考訳): MerA: 訓練済みのアダプタを組み込む
- Authors: Shwai He, Run-Ze Fan, Liang Ding, Li Shen, Tianyi Zhou, Dacheng Tao
- Abstract要約: モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
- 参考スコア(独自算出の注目度): 71.44422347502409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapter tuning, which updates only a few parameters, has become a mainstream
method for fine-tuning pretrained language models to downstream tasks. However,
it often yields subpar results in few-shot learning. AdapterFusion, which
assembles pretrained adapters using composition layers tailored to specific
tasks, is a possible solution but significantly increases trainable parameters
and deployment costs. Despite this, our preliminary study reveals that even
single adapters can outperform Adapterfusion in few-shot learning, urging us to
propose \textbf{\texttt{Merging Pretrained Adapters}} (MerA) that efficiently
incorporates pretrained adapters to a single model through model fusion.
Extensive experiments on two PLMs demonstrate that MerA achieves substantial
improvements compared to both single adapters and AdapterFusion. To further
enhance the capacity of MerA, we also introduce a simple yet effective
technique, referred to as the "\textit{same-track}" setting, that merges
adapters from the same track of pretraining tasks. With the implementation of
the "\textit{same-track}" setting, we observe even more impressive gains,
surpassing the performance of both full fine-tuning and adapter tuning by a
substantial margin, e.g., 3.5\% in MRPC and 5.0\% in MNLI.
- Abstract(参考訳): 数パラメータだけを更新するアダプタチューニングは、トレーニング済みの言語モデルを下流タスクに微調整するメインストリームメソッドになっている。
しかし、数発の学習では少ない結果が得られることが多い。
AdapterFusionは、特定のタスクに適したコンポジションレイヤを使用して事前トレーニングされたアダプタを組み立てるが、トレーニング可能なパラメータとデプロイメントコストを大幅に増加させる。
これにもかかわらず、予備研究では、単一のアダプタでさえ、数ショットの学習でAdapterfusionを上回り、モデルフュージョンを通じて、事前訓練されたアダプタを単一のモデルに効率的に組み込むための \textbf{\textt{Merging Pretrained Adapters}} (MerA) を提案することを示唆している。
2つのPLMの大規模な実験により、MerAはシングルアダプタとAdapterFusionと比較して大幅に改善されている。
さらに,MerAのキャパシティを向上させるために,プリトレーニングタスクの同じトラックからアダプタをマージする"\textit{same-track}"設定という,シンプルかつ効果的な手法を導入する。"\textit{same-track}"設定の実装により,MRPC 3.5\% や MNLI 5.0\% など,フルチューニングとアダプタチューニングの両方のパフォーマンスをはるかに上回る,さらに印象的なゲインが観測される。
関連論文リスト
- MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning [20.68925288222065]
スパースアダプタの混合(英: Mixture of Sparse Adapters, MoSA)は、新しいアダプタチューニング法である。
MoSAは、余分な計算ストレージオーバーヘッドを伴わずに、標準よりも大幅にパフォーマンスが向上する。
MoSAは、他のAdapter Tuningメソッド、および他のベースラインを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2023-12-05T17:50:55Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z) - SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency
of Adapters [96.52807311742198]
我々は、ネットワークプルーニングのレンズを通して、アダプタのパラメータ効率を再検討する。
スパース比が最大80%に達すると、SparseAdapterは標準のAdapterよりも同等あるいは優れたパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-09T15:28:48Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。
適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。
適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文 参考訳(メタデータ) (2022-05-03T14:59:27Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する
新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文 参考訳(メタデータ) (2021-06-06T16:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。