論文の概要: Voice Conversion Can Improve ASR in Very Low-Resource Settings
- arxiv url: http://arxiv.org/abs/2111.02674v1
- Date: Thu, 4 Nov 2021 07:57:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 22:02:55.026398
- Title: Voice Conversion Can Improve ASR in Very Low-Resource Settings
- Title(参考訳): 音声変換による低リソース環境におけるASR改善
- Authors: Matthew Baas and Herman Kamper
- Abstract要約: 本稿では,低音源音声認識を改善するために,VCシステムが言語横断的に利用できるかどうかを検討する。
私たちは、英語で実践的なVCシステムを設計し、訓練するために、最近のいくつかのテクニックを組み合わせています。
その結果,低リソース言語4言語すべてにおいて,有意な量の拡張データを使用する場合,音声認識性能が向上することが判明した。
- 参考スコア(独自算出の注目度): 32.170748231414365
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Voice conversion (VC) has been proposed to improve speech recognition systems
in low-resource languages by using it to augment limited training data. But
until recently, practical issues such as compute speed have limited the use of
VC for this purpose. Moreover, it is still unclear whether a VC model trained
on one well-resourced language can be applied to speech from another
low-resource language for the purpose of data augmentation. In this work we
assess whether a VC system can be used cross-lingually to improve low-resource
speech recognition. Concretely, we combine several recent techniques to design
and train a practical VC system in English, and then use this system to augment
data for training a speech recognition model in several low-resource languages.
We find that when using a sensible amount of augmented data, speech recognition
performance is improved in all four low-resource languages considered.
- Abstract(参考訳): 音声変換(VC)は,低リソース言語における音声認識システムを改善するために,限られた訓練データを拡張するために提案されている。
しかし最近まで、計算速度などの実践的な問題は、この目的のためにVCの使用を制限してきた。
さらに、データ拡張のために、ある優れたリソース言語で訓練されたvcモデルが、他の低リソース言語からの音声に適用できるかどうかはまだ不明である。
本研究では,低リソース音声認識を改善するために,vcシステムが言語交互に使用できるかどうかを評価する。
具体的には、近年のいくつかの手法を組み合わせて、実用的なVCシステムを英語で設計し、訓練し、このシステムを用いて、低リソース言語における音声認識モデルの訓練を行う。
認識可能な量の拡張データを使用すると,4つの低リソース言語すべてにおいて音声認識性能が向上することがわかった。
関連論文リスト
- XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。
エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。
その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T15:24:31Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。
自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文 参考訳(メタデータ) (2022-02-25T09:31:40Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。