論文の概要: Enhancing Low-Resource ASR through Versatile TTS: Bridging the Data Gap
- arxiv url: http://arxiv.org/abs/2410.16726v1
- Date: Tue, 22 Oct 2024 06:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:02.823347
- Title: Enhancing Low-Resource ASR through Versatile TTS: Bridging the Data Gap
- Title(参考訳): Versatile TTSによる低リソースASRの強化: データギャップのブリッジ
- Authors: Guanrou Yang, Fan Yu, Ziyang Ma, Zhihao Du, Zhifu Gao, Shiliang Zhang, Xie Chen,
- Abstract要約: テキスト音声合成(TTS)モデルを用いた自動音声認識(ASR)の性能向上のための費用対効果と実用的なアプローチを提案する。
前例のないほど多種多様な低リソースデータセットの実験は、一貫性と実質的なパフォーマンス改善を示している。
本研究では,テキストの多様性,話者の多様性,合成データの量などの要因について検討し,本研究で初めてテキストの多様性について検討した。
- 参考スコア(独自算出の注目度): 46.607944227556
- License:
- Abstract: While automatic speech recognition (ASR) systems have achieved remarkable performance with large-scale datasets, their efficacy remains inadequate in low-resource settings, encompassing dialects, accents, minority languages, and long-tail hotwords, domains with significant practical relevance. With the advent of versatile and powerful text-to-speech (TTS) models, capable of generating speech with human-level naturalness, expressiveness, and diverse speaker profiles, leveraging TTS for ASR data augmentation provides a cost-effective and practical approach to enhancing ASR performance. Comprehensive experiments on an unprecedentedly rich variety of low-resource datasets demonstrate consistent and substantial performance improvements, proving that the proposed method of enhancing low-resource ASR through a versatile TTS model is highly effective and has broad application prospects. Furthermore, we delve deeper into key characteristics of synthesized speech data that contribute to ASR improvement, examining factors such as text diversity, speaker diversity, and the volume of synthesized data, with text diversity being studied for the first time in this work. We hope our findings provide helpful guidance and reference for the practical application of TTS-based data augmentation and push the advancement of low-resource ASR one step further.
- Abstract(参考訳): 音声認識システム(ASR)は大規模データセットでは顕著な性能を達成しているが、その効果は、方言、アクセント、少数言語、長い尾のホットワードを含む低リソース環境では依然として不十分である。
ヒトレベルの自然性、表現性、および多様な話者プロファイルを持つ音声を生成することができる汎用的で強力なTTSモデルの出現により、ASRデータ拡張にTSSを活用することは、ASRの性能を高めるための費用対効果と実践的なアプローチを提供する。
これまでにないほど多種多様な低リソースデータセットに関する総合的な実験は、一貫した、実質的な性能向上を示し、多元性TSモデルによる低リソースASRの強化手法が極めて有効であり、幅広い応用可能性があることを証明した。
さらに, テキストの多様性, 話者の多様性, 合成データの量などの要因を調べた結果, テキストの多様性を初めて研究した。
我々は,RTSベースのデータ拡張の実践的応用に有用なガイダンスとリファレンスを提供し,低リソースASRの進歩をさらに進めることを願っている。
関連論文リスト
- Parameter-efficient Adaptation of Multilingual Multimodal Models for Low-resource ASR [25.566285376879094]
マルチモーダルモデルは、テキストのみの適応とパラメータ効率のよいASR微調整によって、ラベルなしのテキストを活用することができる。
ゼロショット設定でベースラインよりも17%のWER削減を実現し,ハイリソース言語からの言語間移動を示す。
論文 参考訳(メタデータ) (2024-10-17T11:19:44Z) - Automatic Speech Recognition using Advanced Deep Learning Approaches: A survey [2.716339075963185]
近年のディープラーニング(DL)の進歩は,自動音声認識(ASR)にとって重要な課題となっている。
ASRは、秘密のデータセットを含む広範なトレーニングデータセットに依存しており、かなりの計算とストレージリソースを必要としている。
ディープトランスファーラーニング(DTL)、フェデレーションラーニング(FL)、強化ラーニング(RL)といった高度なDL技術はこれらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-02T16:25:42Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Text Generation with Speech Synthesis for ASR Data Augmentation [17.348764629839636]
大規模事前学習ニューラルネットワークを用いた音声認識(ASR)のためのテキスト拡張について検討する。
ニューラルモデルはWERの相対的な改善を9%-15%達成し,従来の手法より優れていた。
論文 参考訳(メタデータ) (2023-05-22T18:45:20Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。