Fugu-MT 論文翻訳(概要): Resource-Efficient Transfer Learning From Speech Foundation Model Using Hierarchical Feature Fusion

論文の概要: Resource-Efficient Transfer Learning From Speech Foundation Model Using Hierarchical Feature Fusion

arxiv url: http://arxiv.org/abs/2211.02712v1
Date: Fri, 4 Nov 2022 19:03:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 19:08:03.691936
Title: Resource-Efficient Transfer Learning From Speech Foundation Model Using Hierarchical Feature Fusion
Title（参考訳）: 階層的特徴融合を用いた音声基礎モデルからの資源効率向上学習
Authors: Zhouyuan Huo, Khe Chai Sim, Bo Li, Dongseong Hwang, Tara N. Sainath, Trevor Strohman
Abstract要約: 本稿では,音声基礎モデルから資源効率の高い伝達学習を実現するための階層的特徴融合法を提案する。実験結果から,提案手法は既存のアルゴリズムよりも音声認識タスクの性能を向上できることがわかった。
参考スコア（独自算出の注目度）: 44.056153052137674
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-supervised pre-training of a speech foundation model, followed by supervised fine-tuning, has shown impressive quality improvements on automatic speech recognition (ASR) tasks. Fine-tuning separate foundation models for many downstream tasks are expensive since the foundation model is usually very big. Parameter-efficient fine-tuning methods (e.g. adapter, sparse update methods) offer an alternative paradigm where a small set of parameters are updated to adapt the foundation model to new tasks. However, these methods still suffer from a high computational memory cost and slow training speed because they require backpropagation through the entire neural network at each step. In the paper, we analyze the performance of features at different layers of a foundation model on the speech recognition task and propose a novel hierarchical feature fusion method for resource-efficient transfer learning from speech foundation models. Experimental results show that the proposed method can achieve better performance on speech recognition task than existing algorithms with fewer number of trainable parameters, less computational memory cost and faster training speed. After combining with Adapters at all layers, the proposed method can achieve the same performance as fine-tuning the whole model with $97\%$ fewer trainable encoder parameters and $53\%$ faster training speed.
Abstract（参考訳）: 音声基礎モデルの自己教師付き事前学習と教師付き微調整は、自動音声認識(asr)タスクにおいて印象的な品質改善を示した。基礎モデルが非常に大きいため、多くのダウンストリームタスクに対して個別の基盤モデルを微調整することは高価である。パラメータ効率のよい微調整法(例えばアダプタ、スパース更新法)は、新しいタスクに基礎モデルを適用するために小さなパラメータセットを更新する代替パラダイムを提供する。しかし、これらの手法は、各ステップでニューラルネットワーク全体のバックプロパゲーションを必要とするため、高い計算メモリコストと遅いトレーニング速度に苦しんでいる。本稿では,音声認識タスクにおける基礎モデルの異なる層における特徴量の性能を分析し,基礎モデルからの資源効率の高い伝達学習のための新しい階層的特徴融合手法を提案する。実験の結果, 学習可能なパラメータ数が少なく, 計算メモリコストが低く, 学習速度が速い既存のアルゴリズムと比較して, 音声認識タスクの性能が向上することがわかった。すべてのレイヤのアダプタと組み合わせることで、トレーニング可能なエンコーダパラメータの削減と、トレーニング速度の高速化によって、モデル全体の微調整と同等のパフォーマンスを実現することができる。

関連論文リスト

LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Parameter-Efficient Transfer Learning for Music Foundation Models [51.61531917413708]
音楽基礎モデルのパラメータ効率変換学習(PETL)について検討する。 PETL法は、音楽の自動タグ付けにおいて、探索と微調整の両方に優れる。 PETL法は、トレーニングコストを大幅に削減し、微調整と同様の結果を得る。
論文参考訳（メタデータ） (2024-11-28T20:50:40Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2023-05-15T06:40:56Z)
$\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文参考訳（メタデータ） (2023-03-26T16:39:44Z)
Evaluating Parameter-Efficient Transfer Learning Approaches on SURE Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-03-02T08:57:33Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)
Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文参考訳（メタデータ） (2021-11-18T18:06:01Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。