論文の概要: From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition
- arxiv url: http://arxiv.org/abs/2505.16972v1
- Date: Thu, 22 May 2025 17:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.518208
- Title: From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition
- Title(参考訳): 10時間から10時間:音声認識のためのバックトランスレーションのスケーリング
- Authors: Tianduo Wang, Lu Xu, Wei Lu, Shanbo Cheng,
- Abstract要約: Speech Back-Translationは、大規模テキストコーパスを合成音声に変換することで、多言語ASRモデルを改善するスケーラブルなパイプラインである。
10言語で50,000時間以上の合成音声を生成し、Whisper-large-v3の事前学習を継続し、平均転写誤りを30%以上削減する。
- 参考スコア(独自算出の注目度): 14.155874873165853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Automatic Speech Recognition (ASR) have been largely fueled by massive speech corpora. However, extending coverage to diverse languages with limited resources remains a formidable challenge. This paper introduces Speech Back-Translation, a scalable pipeline that improves multilingual ASR models by converting large-scale text corpora into synthetic speech via off-the-shelf text-to-speech (TTS) models. We demonstrate that just tens of hours of real transcribed speech can effectively train TTS models to generate synthetic speech at hundreds of times the original volume while maintaining high quality. To evaluate synthetic speech quality, we develop an intelligibility-based assessment framework and establish clear thresholds for when synthetic data benefits ASR training. Using Speech Back-Translation, we generate more than 500,000 hours of synthetic speech in ten languages and continue pre-training Whisper-large-v3, achieving average transcription error reductions of over 30\%. These results highlight the scalability and effectiveness of Speech Back-Translation for enhancing multilingual ASR systems.
- Abstract(参考訳): 近年の音声認識 (ASR) の進歩は, 音声コーパスの大規模化に大きく寄与している。
しかし、リソースが限られている多種多様な言語にカバー範囲を広げることは、依然として大きな課題である。
本稿では,大規模テキストコーパスをオフザシェルフテキスト音声(TTS)モデルを用いて合成音声に変換することにより,多言語ASRモデルを改善するスケーラブルなパイプラインであるSpeech Back-Translationを紹介する。
実際に書き起こされた音声のほんの数時間で、TSモデルを効果的に訓練し、高品質を維持しつつ、原音の数百倍の合成音声を生成できることを実証した。
合成音声の質を評価するため、我々は知性に基づく評価フレームワークを開発し、合成データがASRトレーニングに有効である場合の明確なしきい値を確立する。
音声バックトランスレーションを用いて、10言語で50,000時間以上の合成音声を生成し、Whisper-large-v3の事前学習を継続し、平均書き起こし誤りを30 %以上削減する。
これらの結果は,多言語ASRシステムの拡張のための音声翻訳のスケーラビリティと有効性を強調した。
関連論文リスト
- An Exhaustive Evaluation of TTS- and VC-based Data Augmentation for ASR [12.197936305117407]
近年,テキスト音声変換 (TTS) や音声変換 (VC) による合成データによる自動音声認識システムの訓練データの増加が注目されている。
我々は,最近提案されたフローベースTS/VCモデルを活用し,複数のASRモデルにより達成された単語誤り率(WER)に対する様々な音声属性の増大の影響を評価する。
論文 参考訳(メタデータ) (2025-03-11T23:09:06Z) - Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - HierSpeech++: Bridging the Gap between Semantic and Acoustic
Representation of Speech by Hierarchical Variational Inference for Zero-shot
Speech Synthesis [39.892633589217326]
大規模言語モデル(LLM)に基づく音声合成は、ゼロショット音声合成において広く採用されている。
テキスト音声変換(TTS)と音声変換(VC)のための高速で強力なゼロショット音声合成器であるHierSpeech++を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:07:11Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。