論文の概要: Efficient Adapter Transfer of Self-Supervised Speech Models for
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2202.03218v1
- Date: Mon, 7 Feb 2022 14:20:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 21:30:12.764059
- Title: Efficient Adapter Transfer of Self-Supervised Speech Models for
Automatic Speech Recognition
- Title(参考訳): 自動音声認識のための自己教師付き音声モデルの適応変換
- Authors: Bethan Thomas, Samuel Kessler, Salah Karout
- Abstract要約: wav2vec 2.0やHuBERTといったトランスフォーマーベースのモデルが、音声領域の分野をリードしている。
本稿では,wav2vec 2.0 へのアダプタの適用により,下流 ASR タスクに必要なパラメータ数を削減することを提案する。
- 参考スコア(独自算出の注目度): 0.1909808926064466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) is a powerful tool that allows learning of
underlying representations from unlabeled data. Transformer based models such
as wav2vec 2.0 and HuBERT are leading the field in the speech domain. Generally
these models are fine-tuned on a small amount of labeled data for a downstream
task such as Automatic Speech Recognition (ASR). This involves re-training the
majority of the model for each task. Adapters are small lightweight modules
which are commonly used in Natural Language Processing (NLP) to adapt
pre-trained models to new tasks. In this paper we propose applying adapters to
wav2vec 2.0 to reduce the number of parameters required for downstream ASR
tasks, and increase scalability of the model to multiple tasks or languages.
Using adapters we can perform ASR while training fewer than 10% of parameters
per task compared to full fine-tuning with little degradation of performance.
Ablations show that applying adapters into just the top few layers of the
pre-trained network gives similar performance to full transfer, supporting the
theory that higher pre-trained layers encode more phonemic information, and
further optimizing efficiency.
- Abstract(参考訳): 自己教師付き学習(SSL)は、ラベルのないデータから基礎となる表現を学習するための強力なツールである。
wav2vec 2.0やHuBERTといったトランスフォーマーベースのモデルが、音声領域の分野をリードしている。
一般に、これらのモデルは、自動音声認識(asr)のような下流タスク用の少量のラベル付きデータに基づいて微調整される。
これには各タスクに対するモデルの大部分が再トレーニングされる。
アダプタは、自然言語処理(nlp)で一般的に使用される小さな軽量モジュールで、事前学習されたモデルを新しいタスクに適応させる。
本稿では,wav2vec 2.0 へのアダプタの適用により,下流 ASR タスクに必要なパラメータ数を削減し,複数のタスクや言語に対するモデルのスケーラビリティを向上させることを提案する。
アダプタを使用することで、パフォーマンスをほとんど低下させることなく、タスク毎のパラメータの10%未満をトレーニングしながら、ASRを実行することができます。
アブレーションは、事前学習されたネットワークの上位数層のみにアダプタを適用することで、フル転送と同等の性能が得られることを示し、より高い事前学習層はより多くの音韻情報をエンコードし、さらに効率を最適化する理論を支持している。
関連論文リスト
- eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Evaluating Parameter-Efficient Transfer Learning Approaches on SURE
Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。
本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:57:33Z) - UniAdapter: Unified Parameter-Efficient Transfer Learning for
Cross-modal Modeling [49.134517040512414]
本論文では,UniAdapterを提案する。UniAdapterは,視覚言語モデルに対するパラメータ効率のよいクロスモーダル適応のための,ユニモーダルおよびマルチモーダルアダプタを統一する。
実験によると、UniAdapterは最先端技術を上回るだけでなく、完全な微調整戦略に勝っている。
論文 参考訳(メタデータ) (2023-02-13T18:59:10Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。