論文の概要: AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models
- arxiv url: http://arxiv.org/abs/2205.12410v1
- Date: Tue, 24 May 2022 23:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 00:02:12.864629
- Title: AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models
- Title(参考訳): AdaMix:大規模言語モデルのパラメータ効率チューニングのためのMix-of-Adapter
- Authors: Yaqing Wang, Subhabrata Mukherjee, Xiaodong Liu, Jing Gao, Ahmed
Hassan Awadallah, Jianfeng Gao
- Abstract要約: 大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
- 参考スコア(独自算出の注目度): 119.7093605087114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large-scale pre-trained language models to downstream tasks
require updating hundreds of millions of parameters. This not only increases
the serving cost to store a large copy of the model weights for every task, but
also exhibits instability during few-shot task adaptation. Parameter-efficient
techniques have been developed that tune small trainable components (e.g.,
adapters) injected in the large model while keeping most of the model weights
frozen. The prevalent mechanism to increase adapter capacity is to increase the
bottleneck dimension which increases the adapter parameters. In this work, we
introduce a new mechanism to improve adapter capacity without increasing
parameters or computational cost by two key techniques. (i) We introduce
multiple shared adapter components in each layer of the Transformer
architecture. We leverage sparse learning via random routing to update the
adapter parameters (encoder is kept frozen) resulting in the same amount of
computational cost (FLOPs) as that of training a single adapter. (ii) We
propose a simple merging mechanism to average the weights of multiple adapter
components to collapse to a single adapter in each Transformer layer, thereby,
keeping the overall parameters also the same but with significant performance
improvement. We demonstrate these techniques to work well across multiple task
settings including fully supervised and few-shot Natural Language Understanding
tasks. By only tuning 0.23% of a pre-trained language model's parameters, our
model outperforms the full model fine-tuning performance and several competing
methods.
- Abstract(参考訳): 大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクに対するモデルウェイトの大規模なコピーを格納するサービスコストが増大するだけでなく、少数のタスク適応時に不安定になる。
モデル重量の大半を凍結させながら、大きなモデルに小さなトレーニング可能な部品(例えばアダプタ)を注入するパラメータ効率の手法が開発されている。
アダプタ容量を増やすための一般的なメカニズムは、アダプタパラメータを増やすボトルネック次元を増やすことである。
本研究では,パラメータや計算コストを2つの重要な手法で増大させることなく,アダプタ容量を改善する機構を提案する。
(i)Transformerアーキテクチャの各レイヤに複数の共有アダプタコンポーネントを導入します。
我々は、ランダムなルーティングによるスパース学習を利用して、アダプタパラメータ(エンコーダは凍結されている)を更新し、単一のアダプタをトレーニングするのと同じ計算コスト(FLOP)を発生させる。
二) 各変圧器層において、複数のアダプタコンポーネントの重みを平均して単一のアダプタに崩壊させる簡易なマージ機構を提案する。
これらのテクニックは、完全に教師付きおよび数発の自然言語理解タスクを含む、複数のタスク設定でうまく機能することを示す。
事前訓練された言語モデルのパラメータの0.23%だけをチューニングすることで、我々のモデルはフルモデルの微調整性能といくつかの競合する手法よりも優れる。
関連論文リスト
- Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision [52.80792724919329]
本稿では,2次元画像と3次元点雲の微調整を改善するためのAdapter-Xという新しいフレームワークを提案する。
2D画像と3Dポイントの雲のモードで完全な微調整をし、パラメータが大幅に少ない、すなわち2Dと3Dの分類タスクにおいて、オリジナルのトレーニング可能なパラメータのわずか0.20%と1.88%で、初めて性能を上回った。
論文 参考訳(メタデータ) (2024-06-05T08:26:44Z) - Hierarchical Recurrent Adapters for Efficient Multi-Task Adaptation of Large Speech Models [12.230087530720652]
本稿では,大規模マルチタスク適応シナリオにおいて,より効率的なアダプタモジュールを提案する。
アダプタは単一の共有コントローラネットワークと複数のタスクレベルのアダプタヘッドで構成されている。
論文 参考訳(メタデータ) (2024-03-25T17:21:56Z) - MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning [20.68925288222065]
スパースアダプタの混合(英: Mixture of Sparse Adapters, MoSA)は、新しいアダプタチューニング法である。
MoSAは、余分な計算ストレージオーバーヘッドを伴わずに、標準よりも大幅にパフォーマンスが向上する。
MoSAは、他のAdapter Tuningメソッド、および他のベースラインを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2023-12-05T17:50:55Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Consolidator: Mergeable Adapter with Grouped Connections for Visual
Adaptation [53.835365470800916]
視覚変換器の知識を効率よく効果的に伝達する方法を示す。
調整可能なパラメータの小さなセットを追加して,事前学習モデルを変更するコンソリケータを提案する。
我々のコンソリエータは、0.35%のパラメータで完全な微調整よりも最大7.56の精度で到達できる。
論文 参考訳(メタデータ) (2023-04-30T23:59:02Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - AdapterHub: A Framework for Adapting Transformers [148.6877231725939]
AdapterHubは、さまざまなタスクや言語のためのトレーニング済みアダプタの動的"スティッチイン"を可能にするフレームワークである。
我々のフレームワークは、タスク固有のモデルの共有にスケーラブルで簡単にアクセスできる。
論文 参考訳(メタデータ) (2020-07-15T15:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。