論文の概要: On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation
- arxiv url: http://arxiv.org/abs/2106.03164v1
- Date: Sun, 6 Jun 2021 16:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:16:18.634189
- Title: On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation
- Title(参考訳): 事前学習された言語モデル適応に対するアダプタベースのチューニングの有効性について
- Authors: Ruidan He, Linlin Liu, Hai Ye, Qingyu Tan, Bosheng Ding, Liying Cheng,
Jia-Wei Low, Lidong Bing, Luo Si
- Abstract要約: プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する
新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
- 参考スコア(独自算出の注目度): 36.37565646597464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapter-based tuning has recently arisen as an alternative to fine-tuning. It
works by adding light-weight adapter modules to a pretrained language model
(PrLM) and only updating the parameters of adapter modules when learning on a
downstream task. As such, it adds only a few trainable parameters per new task,
allowing a high degree of parameter sharing. Prior studies have shown that
adapter-based tuning often achieves comparable results to fine-tuning. However,
existing work only focuses on the parameter-efficient aspect of adapter-based
tuning while lacking further investigation on its effectiveness. In this paper,
we study the latter. We first show that adapter-based tuning better mitigates
forgetting issues than fine-tuning since it yields representations with less
deviation from those generated by the initial PrLM. We then empirically compare
the two tuning methods on several downstream NLP tasks and settings. We
demonstrate that 1) adapter-based tuning outperforms fine-tuning on
low-resource and cross-lingual tasks; 2) it is more robust to overfitting and
less sensitive to changes in learning rates.
- Abstract(参考訳): 適応型チューニングがファインチューニングの代替として最近登場した。
事前訓練された言語モデル(PrLM)に軽量なアダプタモジュールを追加し、下流タスクで学習する時にのみアダプタモジュールのパラメータを更新する。
そのため、新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
以前の研究では、アダプタベースのチューニングは、しばしば微調整に匹敵する結果が得られることが示されている。
しかし、既存の研究は、アダプタベースのチューニングのパラメータ効率の側面にのみ焦点をあて、その効果についてさらなる研究を欠いている。
本稿では,後者について検討する。
まず,アダプタベースのチューニングは,初期prlmが生成した表現から逸脱した表現を生じさせるため,微調整よりも忘れられる問題を緩和する。
次に、下流のNLPタスクと設定における2つのチューニング手法を実証的に比較する。
1) 適応型チューニングは,低リソースタスクや多言語タスクの微調整よりも優れており,2) 過度に適合し,学習率の変化に敏感ではない。
関連論文リスト
- Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning [20.68925288222065]
スパースアダプタの混合(英: Mixture of Sparse Adapters, MoSA)は、新しいアダプタチューニング法である。
MoSAは、余分な計算ストレージオーバーヘッドを伴わずに、標準よりも大幅にパフォーマンスが向上する。
MoSAは、他のAdapter Tuningメソッド、および他のベースラインを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2023-12-05T17:50:55Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Evaluating Parameter-Efficient Transfer Learning Approaches on SURE
Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。
本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:57:33Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Tiny-Attention Adapter: Contexts Are More Important Than the Number of
Parameters [25.958600375299735]
Adapter-tuningは、トレーニング済みの言語モデルを、少数の新しいパラメータの追加とチューニングによって下流タスクに転送するパラダイムである。
本稿では, 極小アテンション, 極小アテンション・アテンション・アテンション・アテンション・アテンションをアダプタとして用いることの有効性について検討する。
私たちの小さなアテンションアダプタは、他のすべての位置にある隠された状態に直接条件付けられた各位置の隠された状態を変更することを学習します。
論文 参考訳(メタデータ) (2022-10-18T15:20:44Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。