Fugu-MT 論文翻訳(概要): Conformer-1: Robust ASR via Large-Scale Semisupervised Bootstrapping

論文の概要: Conformer-1: Robust ASR via Large-Scale Semisupervised Bootstrapping

arxiv url: http://arxiv.org/abs/2404.07341v1
Date: Wed, 10 Apr 2024 20:40:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 15:38:10.660130
Title: Conformer-1: Robust ASR via Large-Scale Semisupervised Bootstrapping
Title（参考訳）: Conformer-1:大規模半教師付きブートストラッピングによるロバストASR
Authors: Kevin Zhang, Luka Chkhetiani, Francis McCann Ramirez, Yash Khare, Andrea Vanzo, Michael Liang, Sergio Ramirez Martin, Gabriel Oexle, Ruben Bousbib, Taufiquzzaman Peyash, Michael Nguyen, Dillon Pulliam, Domenic Donato,
Abstract要約: 本稿では,570k時間の音声データを対象としたエンドツーエンド自動音声認識(ASR)モデルを提案する。我々は、強力なConformer RNN-Tベースラインモデルを用いて、ラベルのない公開データに対して擬似ラベルを生成する。これらの擬似ラベル付きデータを追加することで、我々の非同期およびリアルタイムモデルでは、相対的なワードエラー率(WER)が11.5%、24.3%向上した。
参考スコア（独自算出の注目度）: 1.7593130415737603
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents Conformer-1, an end-to-end Automatic Speech Recognition (ASR) model trained on an extensive dataset of 570k hours of speech audio data, 91% of which was acquired from publicly available sources. To achieve this, we perform Noisy Student Training after generating pseudo-labels for the unlabeled public data using a strong Conformer RNN-T baseline model. The addition of these pseudo-labeled data results in remarkable improvements in relative Word Error Rate (WER) by 11.5% and 24.3% for our asynchronous and realtime models, respectively. Additionally, the model is more robust to background noise owing to the addition of these data. The results obtained in this study demonstrate that the incorporation of pseudo-labeled publicly available data is a highly effective strategy for improving ASR accuracy and noise robustness.
Abstract（参考訳）: 本稿では,570k時間の音声データを対象としたエンドツーエンド自動音声認識(ASR)モデルであるConformer-1について述べる。そこで我々は,強力なコンフォーマーRNN-Tベースラインモデルを用いて,ラベルのない公開データに対して擬似ラベルを生成して,ノイズのある学生訓練を行う。これらの擬似ラベル付きデータを追加することで、我々の非同期モデルとリアルタイムモデルでは、相対的なワードエラー率(WER)が11.5%向上し、24.3%向上した。さらに、これらのデータの追加により、モデルはバックグラウンドノイズに対してより堅牢である。本研究では, 疑似ラベル付き公開データの導入が, ASRの精度と雑音の頑健性を向上させる上で, 極めて効果的な戦略であることを実証した。

関連論文リスト

Towards Pretraining Robust ASR Foundation Model with Acoustic-Aware Data Augmentation [18.678742816040856]
自動音声認識(ASR)におけるウィスパーの頑健な性能は、しばしば680khのトレーニングセットによるものである。訓練データにおける言語的および音響的多様性がASRモデルの堅牢性に与える影響について検討する。 ASRモデルの一般化能力を大幅に向上させることが期待できる。
論文参考訳（メタデータ） (2025-05-27T00:55:32Z)
Training Large ASR Encoders with Differential Privacy [18.624449993983106]
大規模音声モデルのための自己教師付き学習(SSL)手法は、ASRにおいて非常に効果的であることが証明されている。大規模な事前学習モデルの公開展開に関心があるため、意図しない記憶と、トレーニングデータからの機密データポイントの漏洩に対する懸念が高まっている。本稿では,SOTA Conformer ベースのエンコーダに差分プライベート(DP)事前学習を適用し,微調整データを公開していると仮定した下流 ASR タスクにおいて,その性能について検討する。
論文参考訳（メタデータ） (2024-09-21T00:01:49Z)
Dynamic Data Pruning for Automatic Speech Recognition [58.95758272440217]
ASR(DDP-ASR)のダイナミック・データ・プルーニング(Dynamic Data Pruning for ASR)を導入し,音声関連データセットに特化して微細なプルーニングの粒度を提供する。実験の結果,DDP-ASRは最大1.6倍のトレーニング時間を節約できることがわかった。
論文参考訳（メタデータ） (2024-06-26T14:17:36Z)
Efficient data selection employing Semantic Similarity-based Graph Structures for model training [1.5845679507219355]
本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を紹介する。これはテキスト情報のみに基づく効率的なデータサンプリング機構であり、計算量の多いモデルにデータを渡すことなく利用できる。このアプローチの適用例は、低リソース自動音声認識(ASR)モデルの使用例で示される。
論文参考訳（メタデータ） (2024-02-22T09:43:53Z)
Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文参考訳（メタデータ） (2023-10-24T20:28:59Z)
Improving the Robustness of Summarization Models by Detecting and Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文参考訳（メタデータ） (2022-12-20T00:33:11Z)
An Experimental Study on Private Aggregation of Teacher Ensemble Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文参考訳（メタデータ） (2022-10-11T16:55:54Z)
Boosting Facial Expression Recognition by A Semi-Supervised Progressive Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。 RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文参考訳（メタデータ） (2022-05-28T07:47:53Z)
Representative Subset Selection for Efficient Fine-Tuning in Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-18T10:12:24Z)
Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2022-03-04T12:18:23Z)
Distantly-Supervised Named Entity Recognition with Noise-Robust Learning and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文参考訳（メタデータ） (2021-09-10T17:19:56Z)
Rethinking Evaluation in ASR: Are Our Models Robust Enough? [30.114009549372923]
一般に、残響と付加音の増補により、ドメイン間の一般化性能が向上することを示す。ベンチマークを十分に使うと、平均単語誤り率(WER)のパフォーマンスが実世界のノイズの多いデータのパフォーマンスに良いプロキシを提供することを示した。
論文参考訳（メタデータ） (2020-10-22T14:01:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。