論文の概要: Resource-Efficient Transfer Learning From Speech Foundation Model Using
Hierarchical Feature Fusion
- arxiv url: http://arxiv.org/abs/2211.02712v1
- Date: Fri, 4 Nov 2022 19:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 19:08:03.691936
- Title: Resource-Efficient Transfer Learning From Speech Foundation Model Using
Hierarchical Feature Fusion
- Title(参考訳): 階層的特徴融合を用いた音声基礎モデルからの資源効率向上学習
- Authors: Zhouyuan Huo, Khe Chai Sim, Bo Li, Dongseong Hwang, Tara N. Sainath,
Trevor Strohman
- Abstract要約: 本稿では,音声基礎モデルから資源効率の高い伝達学習を実現するための階層的特徴融合法を提案する。
実験結果から,提案手法は既存のアルゴリズムよりも音声認識タスクの性能を向上できることがわかった。
- 参考スコア(独自算出の注目度): 44.056153052137674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pre-training of a speech foundation model, followed by
supervised fine-tuning, has shown impressive quality improvements on automatic
speech recognition (ASR) tasks. Fine-tuning separate foundation models for many
downstream tasks are expensive since the foundation model is usually very big.
Parameter-efficient fine-tuning methods (e.g. adapter, sparse update methods)
offer an alternative paradigm where a small set of parameters are updated to
adapt the foundation model to new tasks. However, these methods still suffer
from a high computational memory cost and slow training speed because they
require backpropagation through the entire neural network at each step. In the
paper, we analyze the performance of features at different layers of a
foundation model on the speech recognition task and propose a novel
hierarchical feature fusion method for resource-efficient transfer learning
from speech foundation models. Experimental results show that the proposed
method can achieve better performance on speech recognition task than existing
algorithms with fewer number of trainable parameters, less computational memory
cost and faster training speed. After combining with Adapters at all layers,
the proposed method can achieve the same performance as fine-tuning the whole
model with $97\%$ fewer trainable encoder parameters and $53\%$ faster training
speed.
- Abstract(参考訳): 音声基礎モデルの自己教師付き事前学習と教師付き微調整は、自動音声認識(asr)タスクにおいて印象的な品質改善を示した。
基礎モデルが非常に大きいため、多くのダウンストリームタスクに対して個別の基盤モデルを微調整することは高価である。
パラメータ効率のよい微調整法(例えばアダプタ、スパース更新法)は、新しいタスクに基礎モデルを適用するために小さなパラメータセットを更新する代替パラダイムを提供する。
しかし、これらの手法は、各ステップでニューラルネットワーク全体のバックプロパゲーションを必要とするため、高い計算メモリコストと遅いトレーニング速度に苦しんでいる。
本稿では,音声認識タスクにおける基礎モデルの異なる層における特徴量の性能を分析し,基礎モデルからの資源効率の高い伝達学習のための新しい階層的特徴融合手法を提案する。
実験の結果, 学習可能なパラメータ数が少なく, 計算メモリコストが低く, 学習速度が速い既存のアルゴリズムと比較して, 音声認識タスクの性能が向上することがわかった。
すべてのレイヤのアダプタと組み合わせることで、トレーニング可能なエンコーダパラメータの削減と、トレーニング速度の高速化によって、モデル全体の微調整と同等のパフォーマンスを実現することができる。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Parameter-Efficient Transfer Learning for Music Foundation Models [51.61531917413708]
音楽基礎モデルのパラメータ効率変換学習(PETL)について検討する。
PETL法は、音楽の自動タグ付けにおいて、探索と微調整の両方に優れる。
PETL法は、トレーニングコストを大幅に削減し、微調整と同様の結果を得る。
論文 参考訳(メタデータ) (2024-11-28T20:50:40Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Evaluating Parameter-Efficient Transfer Learning Approaches on SURE
Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。
本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:57:33Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。