論文の概要: SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency
of Adapters
- arxiv url: http://arxiv.org/abs/2210.04284v2
- Date: Tue, 11 Oct 2022 02:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 11:11:00.863344
- Title: SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency
of Adapters
- Title(参考訳): SparseAdapter: アダプタのパラメータ効率を改善するための簡単なアプローチ
- Authors: Shwai He, Liang Ding, Daize Dong, Miao Zhang, Dacheng Tao
- Abstract要約: 我々は、ネットワークプルーニングのレンズを通して、アダプタのパラメータ効率を再検討する。
スパース比が最大80%に達すると、SparseAdapterは標準のAdapterよりも同等あるいは優れたパフォーマンスを達成できることがわかった。
- 参考スコア(独自算出の注目度): 96.52807311742198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapter Tuning, which freezes the pretrained language models (PLMs) and only
fine-tunes a few extra modules, becomes an appealing efficient alternative to
the full model fine-tuning. Although computationally efficient, the recent
Adapters often increase parameters (e.g. bottleneck dimension) for matching the
performance of full model fine-tuning, which we argue goes against their
original intention. In this work, we re-examine the parameter-efficiency of
Adapters through the lens of network pruning (we name such plug-in concept as
\texttt{SparseAdapter}) and find that SparseAdapter can achieve comparable or
better performance than standard Adapters when the sparse ratio reaches up to
80\%. Based on our findings, we introduce an easy but effective setting
``\textit{Large-Sparse}'' to improve the model capacity of Adapters under the
same parameter budget. Experiments on five competitive Adapters upon three
advanced PLMs show that with proper sparse method (e.g. SNIP) and ratio (e.g.
40\%) SparseAdapter can consistently outperform their corresponding
counterpart. Encouragingly, with the \textit{Large-Sparse} setting, we can
obtain further appealing gains, even outperforming the full fine-tuning by a
large margin. Our code will be released at:
\url{https://github.com/Shwai-He/SparseAdapter}.
- Abstract(参考訳): 事前学習された言語モデル(plm)を凍結し、いくつかの追加モジュールを微調整するアダプタチューニングは、フルモデルの微調整に代わる魅力的な選択肢となる。
計算効率は高いが、近年のアダプタは、フルモデルの微調整性能に適合するパラメータ(例えばボトルネック次元)を増加させることが多い。
本研究では、ネットワークプルーニングのレンズを用いて、アダプタのパラメータ効率を再検討し、スパース比が最大80倍に達すると、SparseAdapterが標準アダプタよりも同等または優れた性能を達成できることを示す。
この結果に基づき,同じパラメータ予算でアダプタのモデルキャパシティを向上させるために, ``\textit{large-sparse}'' の簡易かつ効果的な設定を導入する。
3つの先進的なPLM上の5つの競合アダプタの実験は、適切なスパース法(SNIPなど)と比(40\%など)で、スパースアダプタは対応する手法よりも一貫して優れていることを示した。
奨励的に、 \textit{large-sparse} の設定により、私たちはさらに魅力的な利益を得ることができ、完全な微調整を大きなマージンで上回ることさえできる。
私たちのコードは下記のurl{https://github.com/shwai-he/sparseadapter}でリリースされる。
関連論文リスト
- Hadamard Adapter: An Extreme Parameter-Efficient Adapter Tuning Method for Pre-trained Language Models [108.08773541490191]
事前訓練された言語モデル(PLM)は大量のパラメータを持ち、微調整は高価で時間を要することが多い。
ダウンストリームタスクにおける性能を損なうことなく、微調整時にPLMのパラメータを減らすためのパラメータ効率のアプローチを採用する必要がある。
本稿では, PLMにおける自己注意出力のみに作用する新しいアダプタを設計する。
論文 参考訳(メタデータ) (2024-07-04T18:21:28Z) - MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning [20.68925288222065]
スパースアダプタの混合(英: Mixture of Sparse Adapters, MoSA)は、新しいアダプタチューニング法である。
MoSAは、余分な計算ストレージオーバーヘッドを伴わずに、標準よりも大幅にパフォーマンスが向上する。
MoSAは、他のAdapter Tuningメソッド、および他のベースラインを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2023-12-05T17:50:55Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-02-16T06:14:15Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する
新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文 参考訳(メタデータ) (2021-06-06T16:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。