論文の概要: Split & Merge: Unlocking the Potential of Visual Adapters via Sparse
Training
- arxiv url: http://arxiv.org/abs/2312.02923v1
- Date: Tue, 5 Dec 2023 17:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:59:30.873886
- Title: Split & Merge: Unlocking the Potential of Visual Adapters via Sparse
Training
- Title(参考訳): Split & Merge: スパーストレーニングによるビジュアルアダプタの可能性の解放
- Authors: Qizhe Zhang, Bocheng Zou, Ruichuan An, Jiaming Liu, Shanghang Zhang
- Abstract要約: 本稿では,新しいアダプタチューニング手法としてMixture of Sparse Adapters(MOSA)を提案する。
MoSAは、計算やストレージのオーバーヘッドが増すことなく、標準アダプタよりも大幅にパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 22.196381248321803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid growth in the scale of pre-trained foundation models,
parameter-efficient fine-tuning techniques have gained significant attention,
among which Adapter Tuning is the most widely used. Despite achieving
efficiency, Adapter Tuning still underperforms full fine-tuning, and the
performance improves at the cost of an increase in parameters. Recent efforts
address this issue by pruning the original adapters, but it also introduces
training instability and suboptimal performance on certain datasets. Motivated
by this, we propose Mixture of Sparse Adapters, or MoSA, as a novel Adapter
Tuning method to fully unleash the potential of each parameter in the adapter.
We first split the standard adapter into multiple non-overlapping modules, then
stochastically activate modules for sparse training, and finally merge them to
form a complete adapter after tuning. In this way, MoSA can achieve
significantly better performance than standard adapters without any additional
computational or storage overhead. Furthermore, we propose a hierarchical
sparse strategy to better leverage limited training data. Extensive experiments
on a series of 27 visual tasks demonstrate that MoSA consistently outperforms
other Adapter Tuning methods as well as other baselines by a significant
margin. Furthermore, in two challenging scenarios with low-resource and
multi-task settings, MoSA achieves satisfactory results, further demonstrating
the effectiveness of our design. Our code will be released.
- Abstract(参考訳): 事前学習された基礎モデルの規模が急速に拡大するにつれて、パラメータ効率の良い微調整技術が注目され、アダプタチューニングが最も広く使われている。
効率は良いものの、アダプタチューニングは依然として完全な微調整を満たさず、パラメータの増加のコストでパフォーマンスが向上する。
最近の取り組みでは、元のアダプタを刈り取ることでこの問題に対処しているが、特定のデータセット上でのトレーニング不安定性と準最適パフォーマンスも導入している。
そこで本研究では,アダプタの各パラメータのポテンシャルを完全に解き放つための新しいアダプタチューニング手法として,スパースアダプタ (mosa) の混合を提案する。
まず、標準アダプタを複数の非重複モジュールに分割し、その後、スパーストレーニング用のモジュールを確率的に活性化し、最後にそれらをマージして、チューニング後に完全なアダプタを形成する。
このようにして、MoSAは計算やストレージのオーバーヘッドを余分に必要とせずに、標準アダプタよりも大幅にパフォーマンスが向上する。
さらに,限られたトレーニングデータを活用するための階層的スパース戦略を提案する。
一連の27の視覚的タスクに関する大規模な実験は、MoSAが他のAdapter Tuningメソッドと他のベースラインを著しく上回っていることを示している。
さらに、低リソースおよびマルチタスク設定の2つの困難なシナリオにおいて、MoSAは満足な結果を得て、設計の有効性をさらに実証する。
私たちのコードはリリースされます。
関連論文リスト
- Hadamard Adapter: An Extreme Parameter-Efficient Adapter Tuning Method for Pre-trained Language Models [108.08773541490191]
事前訓練された言語モデル(PLM)は大量のパラメータを持ち、微調整は高価で時間を要することが多い。
ダウンストリームタスクにおける性能を損なうことなく、微調整時にPLMのパラメータを減らすためのパラメータ効率のアプローチを採用する必要がある。
本稿では, PLMにおける自己注意出力のみに作用する新しいアダプタを設計する。
論文 参考訳(メタデータ) (2024-07-04T18:21:28Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - A Comprehensive Analysis of Adapter Efficiency [20.63580880344425]
自然言語理解(NLU)タスクの場合, アダプタのパラメータ効率は, モデル全体の微調整に比べて, 効率向上に寄与しないことを示す。
NLUタスクの適度なサイズのモデルには、アダプタを使うのではなく、完全な微調整やマルチタスクのトレーニングに頼ることを推奨する。
論文 参考訳(メタデータ) (2023-05-12T14:05:45Z) - SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency
of Adapters [96.52807311742198]
我々は、ネットワークプルーニングのレンズを通して、アダプタのパラメータ効率を再検討する。
スパース比が最大80%に達すると、SparseAdapterは標準のAdapterよりも同等あるいは優れたパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-09T15:28:48Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。
適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。
適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文 参考訳(メタデータ) (2022-05-03T14:59:27Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する
新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文 参考訳(メタデータ) (2021-06-06T16:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。