論文の概要: Resource-Efficient Transfer Learning From Speech Foundation Model Using
Hierarchical Feature Fusion
- arxiv url: http://arxiv.org/abs/2211.02712v1
- Date: Fri, 4 Nov 2022 19:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 19:08:03.691936
- Title: Resource-Efficient Transfer Learning From Speech Foundation Model Using
Hierarchical Feature Fusion
- Title(参考訳): 階層的特徴融合を用いた音声基礎モデルからの資源効率向上学習
- Authors: Zhouyuan Huo, Khe Chai Sim, Bo Li, Dongseong Hwang, Tara N. Sainath,
Trevor Strohman
- Abstract要約: 本稿では,音声基礎モデルから資源効率の高い伝達学習を実現するための階層的特徴融合法を提案する。
実験結果から,提案手法は既存のアルゴリズムよりも音声認識タスクの性能を向上できることがわかった。
- 参考スコア(独自算出の注目度): 44.056153052137674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pre-training of a speech foundation model, followed by
supervised fine-tuning, has shown impressive quality improvements on automatic
speech recognition (ASR) tasks. Fine-tuning separate foundation models for many
downstream tasks are expensive since the foundation model is usually very big.
Parameter-efficient fine-tuning methods (e.g. adapter, sparse update methods)
offer an alternative paradigm where a small set of parameters are updated to
adapt the foundation model to new tasks. However, these methods still suffer
from a high computational memory cost and slow training speed because they
require backpropagation through the entire neural network at each step. In the
paper, we analyze the performance of features at different layers of a
foundation model on the speech recognition task and propose a novel
hierarchical feature fusion method for resource-efficient transfer learning
from speech foundation models. Experimental results show that the proposed
method can achieve better performance on speech recognition task than existing
algorithms with fewer number of trainable parameters, less computational memory
cost and faster training speed. After combining with Adapters at all layers,
the proposed method can achieve the same performance as fine-tuning the whole
model with $97\%$ fewer trainable encoder parameters and $53\%$ faster training
speed.
- Abstract(参考訳): 音声基礎モデルの自己教師付き事前学習と教師付き微調整は、自動音声認識(asr)タスクにおいて印象的な品質改善を示した。
基礎モデルが非常に大きいため、多くのダウンストリームタスクに対して個別の基盤モデルを微調整することは高価である。
パラメータ効率のよい微調整法(例えばアダプタ、スパース更新法)は、新しいタスクに基礎モデルを適用するために小さなパラメータセットを更新する代替パラダイムを提供する。
しかし、これらの手法は、各ステップでニューラルネットワーク全体のバックプロパゲーションを必要とするため、高い計算メモリコストと遅いトレーニング速度に苦しんでいる。
本稿では,音声認識タスクにおける基礎モデルの異なる層における特徴量の性能を分析し,基礎モデルからの資源効率の高い伝達学習のための新しい階層的特徴融合手法を提案する。
実験の結果, 学習可能なパラメータ数が少なく, 計算メモリコストが低く, 学習速度が速い既存のアルゴリズムと比較して, 音声認識タスクの性能が向上することがわかった。
すべてのレイヤのアダプタと組み合わせることで、トレーニング可能なエンコーダパラメータの削減と、トレーニング速度の高速化によって、モデル全体の微調整と同等のパフォーマンスを実現することができる。
関連論文リスト
- Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Evaluating Parameter-Efficient Transfer Learning Approaches on SURE
Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。
本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:57:33Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。