論文の概要: Improving noisy student training for low-resource languages in End-to-End ASR using CycleGAN and inter-domain losses
- arxiv url: http://arxiv.org/abs/2407.21061v1
- Date: Fri, 26 Jul 2024 10:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:45:44.184422
- Title: Improving noisy student training for low-resource languages in End-to-End ASR using CycleGAN and inter-domain losses
- Title(参考訳): CycleGANとドメイン間損失を用いたエンド・ツー・エンドASRにおける低リソース言語のためのノイズの多い学生訓練の改善
- Authors: Chia-Yu Li, Ngoc Thang Vu,
- Abstract要約: 雑音の多い学生訓練を用いた半教師付きエンド・ツー・エンド音声認識システムの訓練により,性能が大幅に向上した。
本稿では,半教師付きエンド・ツー・エンド音声認識の極端な事例として,ペア音声,ラベルなし音声,豊富な外部テキストが存在することを考察する。
- 参考スコア(独自算出の注目度): 28.74405969209494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a semi-supervised end-to-end speech recognition system using noisy student training has significantly improved performance. However, this approach requires a substantial amount of paired speech-text and unlabeled speech, which is costly for low-resource languages. Therefore, this paper considers a more extreme case of semi-supervised end-to-end automatic speech recognition where there are limited paired speech-text, unlabeled speech (less than five hours), and abundant external text. Firstly, we observe improved performance by training the model using our previous work on semi-supervised learning "CycleGAN and inter-domain losses" solely with external text. Secondly, we enhance "CycleGAN and inter-domain losses" by incorporating automatic hyperparameter tuning, calling it "enhanced CycleGAN inter-domain losses." Thirdly, we integrate it into the noisy student training approach pipeline for low-resource scenarios. Our experimental results, conducted on six non-English languages from Voxforge and Common Voice, show a 20% word error rate reduction compared to the baseline teacher model and a 10% word error rate reduction compared to the baseline best student model, highlighting the significant improvements achieved through our proposed method.
- Abstract(参考訳): 雑音の多い学生訓練を用いた半教師付きエンド・ツー・エンド音声認識システムの訓練により,性能が大幅に向上した。
しかし、この手法には大量のペア音声テキストとラベルなし音声が必要であり、低リソース言語にはコストがかかる。
そこで本研究では,5時間以内のペア音声テキスト,ラベルなし音声,および豊富な外部テキストが存在するような,半教師付きエンドツーエンド音声認識の極端な事例について考察する。
まず,外部テキストのみを用いた半教師付き学習「CycleGANとドメイン間損失」によるモデル学習により,改良された性能向上を観察する。
第2に、自動ハイパーパラメータチューニングを組み込むことにより、"CycleGANとドメイン間損失"を強化し、"CycleGANのドメイン間損失を増大させる"。
第3に、低リソースシナリオのためのノイズの多い学生トレーニングアプローチパイプラインに統合します。
VoxforgeとCommon Voiceの6つの非英語言語で実施した実験の結果,ベースラインの教師モデルと比較して単語誤り率を20%削減し,ベースラインの生徒モデルに比べて単語誤り率を10%削減し,提案手法によって達成された顕著な改善点を浮き彫りにした。
関連論文リスト
- Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Curriculum optimization for low-resource speech recognition [4.803994937990389]
本稿では,学習事例の順序を最適化する自動カリキュラム学習手法を提案する。
様々な雑音条件下で生音声のスコアリング機能として使用できる圧縮比と呼ばれる新しい難易度尺度を導入する。
論文 参考訳(メタデータ) (2022-02-17T19:47:50Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z) - SPIRAL: Self-supervised Perturbation-Invariant Representation Learning
for Speech Pre-Training [25.80559992732508]
SPIRALは、教師/学生のフレームワークにおいて、摂動データの表現を聴覚的に学習することで機能する。
本稿では,実環境における音声応用において重要なノイズ・ロバスト性の問題に対処する。
論文 参考訳(メタデータ) (2022-01-25T09:53:36Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Streaming end-to-end speech recognition with jointly trained neural
feature enhancement [20.86554979122057]
そこで本研究では,MoCha(Motonic Chunkwise Attention)を用いたストリーミングエンドツーエンド音声認識モデルを提案する。
GAEF(Gradual Application of Enhanced Features)とGREL(Gradual Reduction of Enhanced Loss)の2つのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2021-05-04T02:25:41Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。