論文の概要: Towards Pretraining Robust ASR Foundation Model with Acoustic-Aware Data Augmentation
- arxiv url: http://arxiv.org/abs/2505.20606v1
- Date: Tue, 27 May 2025 00:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.329952
- Title: Towards Pretraining Robust ASR Foundation Model with Acoustic-Aware Data Augmentation
- Title(参考訳): アコースティック・アウェア・データ強化によるロバストASR基礎モデルの事前学習に向けて
- Authors: Dancheng Liu, Amir Nassereldine, Chenhui Xu, Jinjun Xiong,
- Abstract要約: 自動音声認識(ASR)におけるウィスパーの頑健な性能は、しばしば680khのトレーニングセットによるものである。
訓練データにおける言語的および音響的多様性がASRモデルの堅牢性に与える影響について検討する。
ASRモデルの一般化能力を大幅に向上させることが期待できる。
- 参考スコア(独自算出の注目度): 18.678742816040856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whisper's robust performance in automatic speech recognition (ASR) is often attributed to its massive 680k-hour training set, an impractical scale for most researchers. In this work, we examine how linguistic and acoustic diversity in training data affect the robustness of the ASR model and reveal that transcription generalization is primarily driven by acoustic variation rather than linguistic richness. We find that targeted acoustic augmentation methods could significantly improve the generalization ability of ASR models, reducing word-error rates by up to 19.24 percent on unseen datasets when training on the 960-hour Librispeech dataset. These findings highlight strategic acoustically focused data augmentation as a promising alternative to massive datasets for building robust ASR models, offering a potential solution to future foundation ASR models when massive human speech data is lacking.
- Abstract(参考訳): 自動音声認識(ASR)におけるウィスパーの頑健な性能は、ほとんどの研究者にとって非現実的な680khのトレーニングセットによることが多い。
本研究では,学習データにおける言語的・音響的多様性がASRモデルの頑健性にどのように影響するかを考察し,転写一般化が言語的豊かさよりも音響的変動によって主に引き起こされていることを明らかにする。
ターゲット音響拡張法は、AIRモデルの一般化能力を大幅に向上させ、960時間Librispeechデータセットのトレーニングにおいて、未知のデータセットで単語エラー率を最大19.24パーセント削減することを発見した。
これらの知見は、ロバストなASRモデルを構築するための巨大なデータセットの代替として、戦略的に焦点を絞ったデータ拡張を有望なものとして強調し、巨大な人間の音声データが欠如している場合に、将来の基礎となるASRモデルに対する潜在的な解決策を提供する。
関連論文リスト
- Enhancing Low-Resource ASR through Versatile TTS: Bridging the Data Gap [46.607944227556]
テキスト音声合成(TTS)モデルを用いた自動音声認識(ASR)の性能向上のための費用対効果と実用的なアプローチを提案する。
前例のないほど多種多様な低リソースデータセットの実験は、一貫性と実質的なパフォーマンス改善を示している。
本研究では,テキストの多様性,話者の多様性,合成データの量などの要因について検討し,本研究で初めてテキストの多様性について検討した。
論文 参考訳(メタデータ) (2024-10-22T06:25:16Z) - Conformer-1: Robust ASR via Large-Scale Semisupervised Bootstrapping [1.7593130415737603]
本稿では,570k時間の音声データを対象としたエンドツーエンド自動音声認識(ASR)モデルを提案する。
我々は、強力なConformer RNN-Tベースラインモデルを用いて、ラベルのない公開データに対して擬似ラベルを生成する。
これらの擬似ラベル付きデータを追加することで、我々の非同期およびリアルタイムモデルでは、相対的なワードエラー率(WER)が11.5%、24.3%向上した。
論文 参考訳(メタデータ) (2024-04-10T20:40:24Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。