論文の概要: Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture
of Adapters
- arxiv url: http://arxiv.org/abs/2402.00828v1
- Date: Thu, 1 Feb 2024 18:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:00:08.565680
- Title: Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture
of Adapters
- Title(参考訳): ソフトミキシングアダプタによる音響スペクトログラム変換器の高効率微調整
- Authors: Umberto Cappellazzo, Daniele Falavigna, Alessio Brutti
- Abstract要約: 最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。
本稿では,音響スペクトル変換器のパラメータ効率の高い微調整におけるMoEの使用を,下流の音声や音声の処理に用いていることを示す。
アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
- 参考スコア(独自算出の注目度): 12.421601877508223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of Experts (MoE) architectures have recently started burgeoning due
to their ability to scale model's capacity while maintaining the computational
cost affordable. Furthermore, they can be applied to both Transformers and
State Space Models, the current state-of-the-art models in numerous fields.
While MoE has been mostly investigated for the pre-training stage, its use in
parameter-efficient transfer learning settings is under-explored. To narrow
this gap, this paper attempts to demystify the use of MoE for
parameter-efficient fine-tuning of Audio Spectrogram Transformers to audio and
speech downstream tasks. Specifically, we propose Soft Mixture of Adapters
(Soft-MoA). It exploits adapters as the experts and, leveraging the recent Soft
MoE method, it relies on a soft assignment between the input tokens and experts
to keep the computational time limited. Extensive experiments across 4
benchmarks demonstrate that Soft-MoA outperforms the single adapter method and
performs on par with the dense MoA counterpart. We finally present ablation
studies on key elements of Soft-MoA, showing for example that Soft-MoA achieves
better scaling with more experts, as well as ensuring that all experts
contribute to the computation of the output tokens, thus dispensing with the
expert imbalance issue.
- Abstract(参考訳): 最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。
さらに、多くの分野における現在の最先端モデルであるトランスフォーマーとステートスペースモデルの両方に適用することができる。
moeは事前学習段階において主に研究されているが、パラメーター効率の良い転送学習設定での使用は未検討である。
このギャップを狭めるために,本論文では,音響スペクトル変換器のパラメータ効率向上のためのMoEを用いた音声および音声のダウンストリームタスクのデミスティフィケートを試みる。
具体的には,アダプタ(ソフトmoa)のソフトミキシングを提案する。
アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。
4つのベンチマークにわたる大規模な実験により、Soft-MoAは単一アダプタ法より優れ、密度の高いMoAと同等に動作することが示された。
最終的に、Soft-MoAの重要な要素についてアブレーション研究を行い、例えば、Soft-MoAはより多くの専門家とより良いスケーリングを実現し、すべての専門家が出力トークンの計算に寄与することを保証するとともに、専門家の不均衡問題を解消することを示した。
関連論文リスト
- Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - Mixture of Attention Heads: Selecting Attention Heads Per Token [40.04159325505842]
Mixture of Attention Heads (MoA)は、マルチヘッドアテンションとMoEメカニズムを組み合わせた新しいアーキテクチャである。
MoAは、標準的なマルチヘッドアテンション層よりも強力なパフォーマンスを実現している。
MoAはまた、ヘッドのユーティリティを自動的に区別し、モデルの解釈可能性について議論するための新しい視点を提供する。
論文 参考訳(メタデータ) (2022-10-11T04:54:05Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - Gating Dropout: Communication-efficient Regularization for Sparsely
Activated Transformers [78.77361169167149]
本稿では,トークンがゲーティングネットワークを無視してローカルマシンに留まることを可能にするEmphGating Dropoutを提案する。
従来のドロップアウトと同様に、Gating Dropoutはトレーニング中に正規化効果があり、その結果、一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-28T05:12:43Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture
of Experts [29.582683923988203]
Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。
本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。
新しいルータアーキテクチャは、共有埋め込みネットワークからの情報を同時に利用できるSpeechMoEで使用されている。
論文 参考訳(メタデータ) (2021-05-07T02:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。