Fugu-MT 論文翻訳(概要): Split & Merge: Unlocking the Potential of Visual Adapters via Sparse Training

論文の概要: Split & Merge: Unlocking the Potential of Visual Adapters via Sparse Training

arxiv url: http://arxiv.org/abs/2312.02923v1
Date: Tue, 5 Dec 2023 17:50:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 14:59:30.873886
Title: Split & Merge: Unlocking the Potential of Visual Adapters via Sparse Training
Title（参考訳）: Split & Merge: スパーストレーニングによるビジュアルアダプタの可能性の解放
Authors: Qizhe Zhang, Bocheng Zou, Ruichuan An, Jiaming Liu, Shanghang Zhang
Abstract要約: 本稿では,新しいアダプタチューニング手法としてMixture of Sparse Adapters(MOSA)を提案する。 MoSAは、計算やストレージのオーバーヘッドが増すことなく、標準アダプタよりも大幅にパフォーマンスが向上する。
参考スコア（独自算出の注目度）: 22.196381248321803
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid growth in the scale of pre-trained foundation models, parameter-efficient fine-tuning techniques have gained significant attention, among which Adapter Tuning is the most widely used. Despite achieving efficiency, Adapter Tuning still underperforms full fine-tuning, and the performance improves at the cost of an increase in parameters. Recent efforts address this issue by pruning the original adapters, but it also introduces training instability and suboptimal performance on certain datasets. Motivated by this, we propose Mixture of Sparse Adapters, or MoSA, as a novel Adapter Tuning method to fully unleash the potential of each parameter in the adapter. We first split the standard adapter into multiple non-overlapping modules, then stochastically activate modules for sparse training, and finally merge them to form a complete adapter after tuning. In this way, MoSA can achieve significantly better performance than standard adapters without any additional computational or storage overhead. Furthermore, we propose a hierarchical sparse strategy to better leverage limited training data. Extensive experiments on a series of 27 visual tasks demonstrate that MoSA consistently outperforms other Adapter Tuning methods as well as other baselines by a significant margin. Furthermore, in two challenging scenarios with low-resource and multi-task settings, MoSA achieves satisfactory results, further demonstrating the effectiveness of our design. Our code will be released.
Abstract（参考訳）: 事前学習された基礎モデルの規模が急速に拡大するにつれて、パラメータ効率の良い微調整技術が注目され、アダプタチューニングが最も広く使われている。効率は良いものの、アダプタチューニングは依然として完全な微調整を満たさず、パラメータの増加のコストでパフォーマンスが向上する。最近の取り組みでは、元のアダプタを刈り取ることでこの問題に対処しているが、特定のデータセット上でのトレーニング不安定性と準最適パフォーマンスも導入している。そこで本研究では,アダプタの各パラメータのポテンシャルを完全に解き放つための新しいアダプタチューニング手法として,スパースアダプタ (mosa) の混合を提案する。まず、標準アダプタを複数の非重複モジュールに分割し、その後、スパーストレーニング用のモジュールを確率的に活性化し、最後にそれらをマージして、チューニング後に完全なアダプタを形成する。このようにして、MoSAは計算やストレージのオーバーヘッドを余分に必要とせずに、標準アダプタよりも大幅にパフォーマンスが向上する。さらに,限られたトレーニングデータを活用するための階層的スパース戦略を提案する。一連の27の視覚的タスクに関する大規模な実験は、MoSAが他のAdapter Tuningメソッドと他のベースラインを著しく上回っていることを示している。さらに、低リソースおよびマルチタスク設定の2つの困難なシナリオにおいて、MoSAは満足な結果を得て、設計の有効性をさらに実証する。私たちのコードはリリースされます。

関連論文リスト

Hadamard Adapter: An Extreme Parameter-Efficient Adapter Tuning Method for Pre-trained Language Models [108.08773541490191]
事前訓練された言語モデル(PLM)は大量のパラメータを持ち、微調整は高価で時間を要することが多い。ダウンストリームタスクにおける性能を損なうことなく、微調整時にPLMのパラメータを減らすためのパラメータ効率のアプローチを採用する必要がある。本稿では, PLMにおける自己注意出力のみに作用する新しいアダプタを設計する。
論文参考訳（メタデータ） (2024-07-04T18:21:28Z)
MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。 2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文参考訳（メタデータ） (2023-08-30T12:10:17Z)
A Comprehensive Analysis of Adapter Efficiency [20.63580880344425]
自然言語理解(NLU)タスクの場合, アダプタのパラメータ効率は, モデル全体の微調整に比べて, 効率向上に寄与しないことを示す。 NLUタスクの適度なサイズのモデルには、アダプタを使うのではなく、完全な微調整やマルチタスクのトレーニングに頼ることを推奨する。
論文参考訳（メタデータ） (2023-05-12T14:05:45Z)
SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency of Adapters [96.52807311742198]
我々は、ネットワークプルーニングのレンズを通して、アダプタのパラメータ効率を再検討する。スパース比が最大80%に達すると、SparseAdapterは標準のAdapterよりも同等あるいは優れたパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2022-10-09T15:28:48Z)
AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文参考訳（メタデータ） (2022-05-24T23:41:22Z)
Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文参考訳（メタデータ） (2022-05-03T14:59:27Z)
AdapterBias: Parameter-efficient Token-dependent Representation Shift for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文参考訳（メタデータ） (2022-04-30T16:49:41Z)
On the Effectiveness of Adapter-based Tuning for Pretrained Language Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文参考訳（メタデータ） (2021-06-06T16:10:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。