論文の概要: Stable Distillation: Regularizing Continued Pre-training for
Low-Resource Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2312.12783v1
- Date: Wed, 20 Dec 2023 06:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:37:25.327835
- Title: Stable Distillation: Regularizing Continued Pre-training for
Low-Resource Automatic Speech Recognition
- Title(参考訳): 安定蒸留:低リソース自動音声認識のための連続事前学習の規則化
- Authors: Ashish Seth and Sreyan Ghosh and S. Umesh and Dinesh Manocha
- Abstract要約: 安定蒸留はSSLベースの継続事前トレーニングのためのシンプルで斬新なアプローチである。
これにより、ラベル付きデータとラベルなしデータの両方が制限されたターゲットドメインでのASRパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 54.9235160379917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continued self-supervised (SSL) pre-training for adapting existing SSL models
to the target domain has shown to be extremely effective for low-resource
Automatic Speech Recognition (ASR). This paper proposes Stable Distillation, a
simple and novel approach for SSL-based continued pre-training that boosts ASR
performance in the target domain where both labeled and unlabeled data are
limited. Stable Distillation employs self-distillation as regularization for
continued pre-training, alleviating the over-fitting issue, a common problem
continued pre-training faces when the source and target domains differ.
Specifically, first, we perform vanilla continued pre-training on an initial
SSL pre-trained model on the target domain ASR dataset and call it the teacher.
Next, we take the same initial pre-trained model as a student to perform
continued pre-training while enforcing its hidden representations to be close
to that of the teacher (via MSE loss). This student is then used for downstream
ASR fine-tuning on the target dataset. In practice, Stable Distillation
outperforms all our baselines by 0.8 - 7 WER when evaluated in various
experimental settings.
- Abstract(参考訳): 既存のSSLモデルをターゲット領域に適応させるためのSSL事前トレーニングは、低リソース自動音声認識(ASR)において極めて効果的であることが示されている。
本稿では、ラベル付きデータとラベルなしデータの両方が制限されたターゲット領域におけるASR性能を高めるSSLベースの継続事前トレーニングのための、シンプルで斬新なアプローチである安定蒸留を提案する。
安定蒸留は自己蒸留を継続前訓練の正則化として採用し、過剰充填問題を軽減するため、ソース領域とターゲット領域が異なっても前訓練を継続する共通問題である。
具体的には、まずターゲットドメインのASRデータセット上で、最初のSSL事前トレーニングモデルでバニラを事前トレーニングし、それを教師と呼ぶ。
次に,学生と同じ事前学習モデルを用いて,隠れた表現を教師のそれに近いものに強制しながら,継続した事前学習を行う(MSE損失)。
この学生は、ターゲットデータセットの下流ASR微調整に使用される。
実際、安定蒸留は様々な実験環境で評価した場合、すべてのベースラインを0.8から7 wer上回る。
関連論文リスト
- FusDom: Combining In-Domain and Out-of-Domain Knowledge for Continuous
Self-Supervised Learning [54.9235160379917]
FusDomはSSLベースの継続事前トレーニングのためのシンプルで斬新な方法論である。
FusDomは、過去に見られる概念を忘れずに頑健で適応的な表現を学ぶ。
論文 参考訳(メタデータ) (2023-12-20T13:50:05Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - Analyzing the factors affecting usefulness of Self-Supervised
Pre-trained Representations for Speech Recognition [1.0705399532413615]
高レベルの音声表現を学習するための自己教師付き学習(SSL)は、音声認識システムを構築するための一般的なアプローチである。
ドメイン、言語、データセットサイズ、および上流のトレーニング済みSSLデータに対するその他の側面が、最終性能の低リソースのASRタスクに与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-31T11:48:24Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。