論文の概要: Effects of Speaker Count, Duration, and Accent Diversity on Zero-Shot Accent Robustness in Low-Resource ASR
- arxiv url: http://arxiv.org/abs/2506.04364v1
- Date: Wed, 04 Jun 2025 18:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.375096
- Title: Effects of Speaker Count, Duration, and Accent Diversity on Zero-Shot Accent Robustness in Low-Resource ASR
- Title(参考訳): 低電源ASRのゼロショットアクセントロバスト性に及ぼす話者数, 継続時間, アクセント多様性の影響
- Authors: Zheng-Xin Yong, Vineel Pratap, Michael Auli, Jean Maillard,
- Abstract要約: 学習データ中の3つの変数(話者数、各話者ごとの音声持続時間、アクセントの多様性)がASRの堅牢性にどのように影響するかを検討する。
一定回数のASRトレーニング時間において、話者数を増やすことはより有益である。
意外なことに、話者数を制御する場合、異なるアクセントで話者を優先順位付けする際の最小限の利点を観察する。
- 参考スコア(独自算出の注目度): 45.2490128432456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To build an automatic speech recognition (ASR) system that can serve everyone in the world, the ASR needs to be robust to a wide range of accents including unseen accents. We systematically study how three different variables in training data -- the number of speakers, the audio duration per each individual speaker, and the diversity of accents -- affect ASR robustness towards unseen accents in a low-resource training regime. We observe that for a fixed number of ASR training hours, it is more beneficial to increase the number of speakers (which means each speaker contributes less) than the number of hours contributed per speaker. We also observe that more speakers enables ASR performance gains from scaling number of hours. Surprisingly, we observe minimal benefits to prioritizing speakers with different accents when the number of speakers is controlled. Our work suggests that practitioners should prioritize increasing the speaker count in ASR training data composition for new languages.
- Abstract(参考訳): 世界中の誰もが利用できる自動音声認識(ASR)システムを構築するためには、ASRは目に見えないアクセントを含む幅広いアクセントに対して堅牢である必要がある。
トレーニングデータの3つの変数(話者数、各話者ごとの音声の長さ、アクセントの多様性)が、低リソースのトレーニングシステムにおいて、ASRが目に見えないアクセントに対する堅牢性にどのように影響するかを系統的に研究する。
一定回数のASR訓練時間において、各話者が寄与する時間よりも話者数(つまり、各話者が貢献する時間)を増やす方が有益である。
また、より多くの話者が、数時間のスケーリングからASRのパフォーマンス向上を可能にすることも観察しています。
意外なことに、話者数を制御する場合、異なるアクセントで話者を優先順位付けする際の最小限の利点を観察する。
我々の研究は、新しい言語のためのASRトレーニングデータ合成における話者数の増加を実践者が優先すべきであることを示唆している。
関連論文リスト
- MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。