論文の概要: PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition
- arxiv url: http://arxiv.org/abs/2106.05933v1
- Date: Thu, 10 Jun 2021 17:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 16:28:13.523568
- Title: PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition
- Title(参考訳): PARP:自己教師付き音声認識のためのプーン, 調整, 再プーン
- Authors: Cheng-I Jeff Lai, Yang Zhang, Alexander H. Liu, Shiyu Chang, Yi-Lun
Liao, Yung-Sung Chuang, Kaizhi Qian, Sameer Khurana, David Cox, James Glass
- Abstract要約: Prune-Adjust-Re-Prune (PARP) は、より優れたASR性能を実現するための細工品を発見する。
低リソースの英語および多言語ASRの実験では、事前訓練された音声SSLにスパースワークが存在する。
- 参考スコア(独自算出の注目度): 78.67749936030219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work on speech self-supervised learning (speech SSL) demonstrated the
benefits of scale in learning rich and transferable representations for
Automatic Speech Recognition (ASR) with limited parallel data. It is then
natural to investigate the existence of sparse and transferrable subnetworks in
pre-trained speech SSL models that can achieve even better low-resource ASR
performance. However, directly applying widely adopted pruning methods such as
the Lottery Ticket Hypothesis (LTH) is suboptimal in the computational cost
needed. Moreover, contrary to what LTH predicts, the discovered subnetworks
yield minimal performance gain compared to the original dense network. In this
work, we propose Prune-Adjust- Re-Prune (PARP), which discovers and finetunes
subnetworks for much better ASR performance, while only requiring a single
downstream finetuning run. PARP is inspired by our surprising observation that
subnetworks pruned for pre-training tasks only needed to be slightly adjusted
to achieve a sizeable performance boost in downstream ASR tasks. Extensive
experiments on low-resource English and multi-lingual ASR show (1) sparse
subnetworks exist in pre-trained speech SSL, and (2) the computational
advantage and performance gain of PARP over baseline pruning methods. On the
10min Librispeech split without LM decoding, PARP discovers subnetworks from
wav2vec 2.0 with an absolute 10.9%/12.6% WER decrease compared to the full
model. We demonstrate PARP mitigates performance degradation in cross-lingual
mask transfer, and investigate the possibility of discovering a single
subnetwork for 10 spoken languages in one run.
- Abstract(参考訳): 最近の音声自己教師付き学習(speech ssl)の研究は、並列データ制限付き自動音声認識(asr)のためのリッチで転送可能な表現の学習におけるスケールの利点を実証した。
そして、より優れた低リソースASR性能を実現することができる事前訓練された音声SSLモデルにおけるスパースおよびトランスファー可能なサブネットワークの存在を調査することは自然である。
しかし、LTH(Lottery Ticket hypothesis)のような広く採用されているプルーニング手法を直接適用することは、計算コストにおいて最適ではない。
さらに、LTHの予測に反して、発見されたサブネットは、元の高密度ネットワークと比較して最小の性能向上をもたらす。
本研究では,より優れたASR性能を実現するためにサブネットワークの探索と微調整を行う Prune-Adjust-Re-Prune (PARP) を提案する。
PARPは、サブネットワークが事前トレーニングタスクで実行されているという驚くべき観察にインスパイアされ、下流のASRタスクで大きなパフォーマンス向上を達成するために、わずかに調整される必要がある。
低リソース英語と多言語ASRの広範な実験は、(1)訓練済み音声SSLにはスパースサブネットが存在し、(2)ベースラインプルーニング法よりも計算上の優位性と性能が向上していることを示している。
LMデコード無しの10min Librispeechスプリットでは、PARPはwav2vec 2.0からサブネットワークを発見し、完全なモデルに比べて10.9%/12.6%のWERが減少する。
PARPは,言語間マスキングにおける性能劣化を軽減し,単一のサブネットワークを1回の実行で10言語で発見する可能性を実証する。
関連論文リスト
- Open Implementation and Study of BEST-RQ for Speech Processing [25.678292575349648]
ランダム投影量子化器(BEST-RQ)を用いたBERTに基づく音声事前学習は、音声認識(ASR)において優れた性能を示した。
ランダム・プロジェクション・量子化器は、トレーニング時間を2倍以上削減しつつ、wav2vec 2.0と同様のダウンストリーム性能が得られることを示す。
論文 参考訳(メタデータ) (2024-05-07T13:11:37Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models [53.87983344862402]
大規模言語モデル(PLM)はメモリフットプリントと計算の点で非効率である。
PLMはデータセットバイアスに頼り、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦慮する傾向にある。
最近の研究では、スパースワークはパフォーマンスを損なうことなくスパースワークに置き換えることができることが示されている。
論文 参考訳(メタデータ) (2022-10-11T07:26:34Z) - Lottery Pools: Winning More by Interpolating Tickets without Increasing
Training or Inference Cost [28.70692607078139]
ロッテリーチケット(LT)は、密集したネットワークの性能に合わせるために単独で訓練できる正確でまばらな作業を見つけることができる。
また,本手法は,流通シナリオとアウト・オブ・ディストリビューションシナリオの両方において,大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2022-08-23T09:50:55Z) - PM-MMUT: Boosted Phone-mask Data Augmentation using Multi-modeing Unit
Training for Robust Uyghur E2E Speech Recognition [5.412341237841356]
子音と母音の短縮は、ウイグル語自動音声認識の性能低下を引き起こす可能性がある。
PMT LibriPM-MMUTとMulti-modeling Unit Training (MMUT)アーキテクチャの融合を提案し,PMTの性能向上を図る。
Uyghur ASRの実験結果から,提案手法は純粋なPMTよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-12-13T15:04:33Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Towards Demystifying Representation Learning with Non-contrastive
Self-supervision [82.80118139087676]
自己教師型学習の非競合的手法は、同一画像の2つのビュー間の距離を最小化することにより、表現を学習する。
Tian el al. (2021) は最初の質問に対して最初の試みを行い、予測器を直接設定する DirectPred を提案した。
単純な線形ネットワークにおいて、DirectSet($alpha$)は望ましいプロジェクション行列を確実に学習し、下流タスクにおけるサンプルの複雑さを減少させることを示す。
論文 参考訳(メタデータ) (2021-10-11T00:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。