論文の概要: MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning
- arxiv url: http://arxiv.org/abs/2312.02923v2
- Date: Sat, 23 Mar 2024 07:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 02:15:55.015631
- Title: MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning
- Title(参考訳): MoSA:視覚効率の高いチューニングのためのスパースアダプタの混合
- Authors: Qizhe Zhang, Bocheng Zou, Ruichuan An, Jiaming Liu, Shanghang Zhang,
- Abstract要約: スパースアダプタの混合(英: Mixture of Sparse Adapters, MoSA)は、新しいアダプタチューニング法である。
MoSAは、余分な計算ストレージオーバーヘッドを伴わずに、標準よりも大幅にパフォーマンスが向上する。
MoSAは、他のAdapter Tuningメソッド、および他のベースラインを大きなマージンで一貫して上回っている。
- 参考スコア(独自算出の注目度): 20.68925288222065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid growth in the scale of pre-trained foundation models, parameter-efficient fine-tuning techniques have gained significant attention, among which Adapter Tuning is the most widely used. Despite achieving efficiency, it still underperforms full fine-tuning, and the performance improves at the cost of an increase in parameters. Recent efforts have either focused on training multiple adapter experts to increase model capacity or on pruning adapters to achieve parameter efficiency. However, both approaches introduce more parameters compared to the original adapter, hence are not computationally efficient. Motivated by this, we propose Mixture of Sparse Adapters, or MoSA, as a novel Adapter Tuning method to fully unleash the potential of each parameter in the adapter. We first split the standard adapter into multiple non-overlapping modules, then stochastically activate them for sparse training, and finally merge them to form a complete adapter after tuning. In this way, MoSA can achieve significantly better performance than standard adapters without any additional computational or storage overhead. Furthermore, we propose a hierarchical sparse strategy to better leverage limited training data. Extensive experiments on a series of 27 visual tasks demonstrate that MoSA consistently outperforms other Adapter Tuning methods as well as other baselines by a large margin. Furthermore, MoSA brings consistent improvements across various model scales, architectures, and different PEFT methods. Code will be released.
- Abstract(参考訳): 事前学習された基礎モデルの規模が急速に拡大するにつれて、パラメータ効率のよい微調整技術が注目され、その中ではAdapter Tuningが最も広く使われている。
効率性は高いが、完全な微調整がまだ不十分であり、パラメータの増加によって性能が向上する。
近年の取り組みは、モデルのキャパシティを向上させるために複数のアダプタ専門家を訓練することや、パラメータ効率を達成するためにプラニングアダプタに焦点を当てている。
しかし、どちらの手法も元のアダプタよりも多くのパラメータを導入しているため、計算効率は良くない。
そこで本研究では,各パラメータのポテンシャルを完全に解き放つ新しいAdapter Tuning法として,Mixture of Sparse Adapters(MOSA)を提案する。
まず、標準アダプタを複数の非重複モジュールに分割し、その後、スパーストレーニングのために確率的にアクティベートし、最後にそれらをマージして、チューニング後に完全なアダプタを形成する。
このようにして、MoSAは計算やストレージのオーバーヘッドを余分に必要とせずに、標準アダプタよりも大幅にパフォーマンスが向上する。
さらに,限られたトレーニングデータを活用するために,階層的なスパース戦略を提案する。
一連の27の視覚的タスクに関する大規模な実験は、MoSAが他のAdapter Tuningメソッドと他のベースラインを大きく上回っていることを示している。
さらに、MoSAは様々なモデルスケール、アーキテクチャ、異なるPEFTメソッドに一貫した改善をもたらす。
コードはリリースされる。
関連論文リスト
- Hadamard Adapter: An Extreme Parameter-Efficient Adapter Tuning Method for Pre-trained Language Models [108.08773541490191]
事前訓練された言語モデル(PLM)は大量のパラメータを持ち、微調整は高価で時間を要することが多い。
ダウンストリームタスクにおける性能を損なうことなく、微調整時にPLMのパラメータを減らすためのパラメータ効率のアプローチを採用する必要がある。
本稿では, PLMにおける自己注意出力のみに作用する新しいアダプタを設計する。
論文 参考訳(メタデータ) (2024-07-04T18:21:28Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - A Comprehensive Analysis of Adapter Efficiency [20.63580880344425]
自然言語理解(NLU)タスクの場合, アダプタのパラメータ効率は, モデル全体の微調整に比べて, 効率向上に寄与しないことを示す。
NLUタスクの適度なサイズのモデルには、アダプタを使うのではなく、完全な微調整やマルチタスクのトレーニングに頼ることを推奨する。
論文 参考訳(メタデータ) (2023-05-12T14:05:45Z) - SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency
of Adapters [96.52807311742198]
我々は、ネットワークプルーニングのレンズを通して、アダプタのパラメータ効率を再検討する。
スパース比が最大80%に達すると、SparseAdapterは標準のAdapterよりも同等あるいは優れたパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-09T15:28:48Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。
適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。
適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文 参考訳(メタデータ) (2022-05-03T14:59:27Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する
新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文 参考訳(メタデータ) (2021-06-06T16:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。