論文の概要: Hierarchical Recurrent Adapters for Efficient Multi-Task Adaptation of Large Speech Models
- arxiv url: http://arxiv.org/abs/2403.19709v1
- Date: Mon, 25 Mar 2024 17:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 17:43:20.202101
- Title: Hierarchical Recurrent Adapters for Efficient Multi-Task Adaptation of Large Speech Models
- Title(参考訳): 大規模音声モデルの高能率マルチタスク適応のための階層的リカレント適応器
- Authors: Tsendsuren Munkhdalai, Youzheng Chen, Khe Chai Sim, Fadi Biadsy, Tara Sainath, Pedro Moreno Mengibar,
- Abstract要約: 本稿では,大規模マルチタスク適応シナリオにおいて,より効率的なアダプタモジュールを提案する。
アダプタは単一の共有コントローラネットワークと複数のタスクレベルのアダプタヘッドで構成されている。
- 参考スコア(独自算出の注目度): 12.230087530720652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter efficient adaptation methods have become a key mechanism to train large pre-trained models for downstream tasks. However, their per-task parameter overhead is considered still high when the number of downstream tasks to adapt for is large. We introduce an adapter module that has a better efficiency in large scale multi-task adaptation scenario. Our adapter is hierarchical in terms of how the adapter parameters are allocated. The adapter consists of a single shared controller network and multiple task-level adapter heads to reduce the per-task parameter overhead without performance regression on downstream tasks. The adapter is also recurrent so the entire adapter parameters are reused across different layers of the pre-trained model. Our Hierarchical Recurrent Adapter (HRA) outperforms the previous adapter-based approaches as well as full model fine-tuning baseline in both single and multi-task adaptation settings when evaluated on automatic speech recognition tasks.
- Abstract(参考訳): パラメータ効率のよい適応手法は、下流タスクのための大規模な事前学習モデルのトレーニングの鍵となるメカニズムとなっている。
しかしながら、タスク毎のパラメータのオーバーヘッドは、適応する下流タスクの数が大きい場合、依然として高く評価されている。
本稿では,大規模マルチタスク適応シナリオにおいて,より効率的なアダプタモジュールを提案する。
私たちのアダプタは、アダプタパラメータの割り当て方法に関して階層的です。
アダプタは、単一の共有コントローラネットワークと複数のタスクレベルのアダプタヘッドで構成され、ダウンストリームタスクのパフォーマンス低下なしに、タスク毎のパラメータオーバーヘッドを低減する。
アダプタもリカレントなので、アダプタパラメータ全体が事前訓練されたモデルの異なるレイヤで再利用される。
我々の階層的リカレントアダプタ(HRA)は、自動音声認識タスクで評価した場合、単一およびマルチタスク適応設定において、従来のアダプタベースのアプローチとフルモデル微調整ベースラインよりも優れている。
関連論文リスト
- Adapters Strike Back [10.490880056507198]
我々は、アダプタ、内部構造、および様々な実装選択について詳細に研究する。
我々は、Adapter+と呼ばれる具体的かつ改良されたアダプタアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-10T22:07:57Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Multi-Head Adapter Routing for Cross-Task Generalization [56.75667096355806]
ポリトロポンは、事前訓練と少数ショット適応の両方の間、各タスクのアダプタのサブセットを選択するルーティング関数とアダプタのインベントリを学習する。
複数タスクの事前学習において、数ショットの適応よりもルーティングの方が有益であることがわかった。
論文 参考訳(メタデータ) (2022-11-07T19:35:55Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。
適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。
適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文 参考訳(メタデータ) (2022-05-03T14:59:27Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - Parameter-efficient Multi-task Fine-tuning for Transformers via Shared
Hypernetworks [37.2958914602899]
共有ハイパーネットワークを用いて、すべてのレイヤやタスクのアダプタパラメータを生成できることを示す。
よく知られたGLUEベンチマークの実験では、タスク当たり0.29%のパラメータしか追加することなく、マルチタスク学習のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2021-06-08T16:16:40Z) - AdapterDrop: On the Efficiency of Adapters in Transformers [53.845909603631945]
大規模に事前訓練されたトランスフォーマーモデルは、微調整に計算コストがかかり、推論に時間がかかり、大きなストレージ要求がある。
最近のアプローチでは、より小さなモデルをトレーニングし、モデルサイズを動的に削減し、軽量アダプタをトレーニングすることで、これらの欠点に対処している。
論文 参考訳(メタデータ) (2020-10-22T17:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。