論文の概要: Conformer-1: Robust ASR via Large-Scale Semisupervised Bootstrapping
- arxiv url: http://arxiv.org/abs/2404.07341v1
- Date: Wed, 10 Apr 2024 20:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 15:38:10.660130
- Title: Conformer-1: Robust ASR via Large-Scale Semisupervised Bootstrapping
- Title(参考訳): Conformer-1:大規模半教師付きブートストラッピングによるロバストASR
- Authors: Kevin Zhang, Luka Chkhetiani, Francis McCann Ramirez, Yash Khare, Andrea Vanzo, Michael Liang, Sergio Ramirez Martin, Gabriel Oexle, Ruben Bousbib, Taufiquzzaman Peyash, Michael Nguyen, Dillon Pulliam, Domenic Donato,
- Abstract要約: 本稿では,570k時間の音声データを対象としたエンドツーエンド自動音声認識(ASR)モデルを提案する。
我々は、強力なConformer RNN-Tベースラインモデルを用いて、ラベルのない公開データに対して擬似ラベルを生成する。
これらの擬似ラベル付きデータを追加することで、我々の非同期およびリアルタイムモデルでは、相対的なワードエラー率(WER)が11.5%、24.3%向上した。
- 参考スコア(独自算出の注目度): 1.7593130415737603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Conformer-1, an end-to-end Automatic Speech Recognition (ASR) model trained on an extensive dataset of 570k hours of speech audio data, 91% of which was acquired from publicly available sources. To achieve this, we perform Noisy Student Training after generating pseudo-labels for the unlabeled public data using a strong Conformer RNN-T baseline model. The addition of these pseudo-labeled data results in remarkable improvements in relative Word Error Rate (WER) by 11.5% and 24.3% for our asynchronous and realtime models, respectively. Additionally, the model is more robust to background noise owing to the addition of these data. The results obtained in this study demonstrate that the incorporation of pseudo-labeled publicly available data is a highly effective strategy for improving ASR accuracy and noise robustness.
- Abstract(参考訳): 本稿では,570k時間の音声データを対象としたエンドツーエンド自動音声認識(ASR)モデルであるConformer-1について述べる。
そこで我々は,強力なコンフォーマーRNN-Tベースラインモデルを用いて,ラベルのない公開データに対して擬似ラベルを生成して,ノイズのある学生訓練を行う。
これらの擬似ラベル付きデータを追加することで、我々の非同期モデルとリアルタイムモデルでは、相対的なワードエラー率(WER)が11.5%向上し、24.3%向上した。
さらに、これらのデータの追加により、モデルはバックグラウンドノイズに対してより堅牢である。
本研究では, 疑似ラベル付き公開データの導入が, ASRの精度と雑音の頑健性を向上させる上で, 極めて効果的な戦略であることを実証した。
関連論文リスト
- Training Large ASR Encoders with Differential Privacy [18.624449993983106]
大規模音声モデルのための自己教師付き学習(SSL)手法は、ASRにおいて非常に効果的であることが証明されている。
大規模な事前学習モデルの公開展開に関心があるため、意図しない記憶と、トレーニングデータからの機密データポイントの漏洩に対する懸念が高まっている。
本稿では,SOTA Conformer ベースのエンコーダに差分プライベート(DP)事前学習を適用し,微調整データを公開していると仮定した下流 ASR タスクにおいて,その性能について検討する。
論文 参考訳(メタデータ) (2024-09-21T00:01:49Z) - Dynamic Data Pruning for Automatic Speech Recognition [58.95758272440217]
ASR(DDP-ASR)のダイナミック・データ・プルーニング(Dynamic Data Pruning for ASR)を導入し,音声関連データセットに特化して微細なプルーニングの粒度を提供する。
実験の結果,DDP-ASRは最大1.6倍のトレーニング時間を節約できることがわかった。
論文 参考訳(メタデータ) (2024-06-26T14:17:36Z) - Efficient data selection employing Semantic Similarity-based Graph
Structures for model training [1.5845679507219355]
本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を紹介する。
これはテキスト情報のみに基づく効率的なデータサンプリング機構であり、計算量の多いモデルにデータを渡すことなく利用できる。
このアプローチの適用例は、低リソース自動音声認識(ASR)モデルの使用例で示される。
論文 参考訳(メタデータ) (2024-02-22T09:43:53Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。
提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-04T12:18:23Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Rethinking Evaluation in ASR: Are Our Models Robust Enough? [30.114009549372923]
一般に、残響と付加音の増補により、ドメイン間の一般化性能が向上することを示す。
ベンチマークを十分に使うと、平均単語誤り率(WER)のパフォーマンスが実世界のノイズの多いデータのパフォーマンスに良いプロキシを提供することを示した。
論文 参考訳(メタデータ) (2020-10-22T14:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。