論文の概要: Synthetic Cross-accent Data Augmentation for Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2303.00802v1
- Date: Wed, 1 Mar 2023 20:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 16:53:35.627399
- Title: Synthetic Cross-accent Data Augmentation for Automatic Speech
Recognition
- Title(参考訳): 自動音声認識のための合成クロスアクセントデータ拡張
- Authors: Philipp Klumpp, Pooja Chitkara, Leda Sar{\i}, Prashant Serai, Jilong
Wu, Irina-Elena Veliche, Rongqing Huang, Qing He
- Abstract要約: 我々は、ネイティブな米国英語音声をアクセント付き発音に変換するアクセント変換モデル(ACM)を改善した。
我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。
ネイティブ・イングリッシュ・データセットと非ネイティブ・イングリッシュ・データセットに対する我々のアプローチを評価し、合成アクセント付きデータにより、アクセントの出現した音声をよりよく理解できるようになったことを発見した。
- 参考スコア(独自算出の注目度): 18.154258453839066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The awareness for biased ASR datasets or models has increased notably in
recent years. Even for English, despite a vast amount of available training
data, systems perform worse for non-native speakers. In this work, we improve
an accent-conversion model (ACM) which transforms native US-English speech into
accented pronunciation. We include phonetic knowledge in the ACM training to
provide accurate feedback about how well certain pronunciation patterns were
recovered in the synthesized waveform. Furthermore, we investigate the
feasibility of learned accent representations instead of static embeddings.
Generated data was then used to train two state-of-the-art ASR systems. We
evaluated our approach on native and non-native English datasets and found that
synthetically accented data helped the ASR to better understand speech from
seen accents. This observation did not translate to unseen accents, and it was
not observed for a model that had been pre-trained exclusively with native
speech.
- Abstract(参考訳): バイアス付きASRデータセットやモデルに対する認識は近年顕著に増加している。
英語でさえ、大量のトレーニングデータがあるにもかかわらず、システムは非ネイティブの話者にとってより良く機能する。
本研究では,母国語音声をアクセント化発音に変換するアクセント変換モデル(ACM)を改良する。
我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。
さらに,静的組込みではなく学習アクセント表現の実現可能性について検討した。
生成されたデータは2つの最先端asrシステムのトレーニングに使用された。
我々は、英語の母国語および非母国語データセットに対するアプローチを評価し、合成アクセントデータによってasrがアクセントから音声をよりよく理解するのに役立つことを見出した。
この観察は見当たらないアクセントには変換されず、母国語のみに事前学習されたモデルでは観測されなかった。
関連論文リスト
- AccentFold: A Journey through African Accents for Zero-Shot ASR
Adaptation to Target Accents [5.746007214645182]
本稿では、学習したアクセント埋め込み間の空間的関係を利用して自動音声認識(ASR)を改善するAccentFoldを提案する。
100以上のアフリカのアクセントを表す音声埋め込みの探索分析により,興味深い空間的アクセント関係が明らかとなった。
本研究は,言語的関係を活用して,ターゲットアクセントへのASR適応を改善する可能性を強調した。
論文 参考訳(メタデータ) (2024-02-02T05:38:59Z) - Transfer the linguistic representations from TTS to accent conversion
with non-parallel data [7.376032484438044]
アクセント変換は、話者のアイデンティティを保ちながら、ソース音声のアクセントをターゲットアクセントに変換することを目的としている。
本稿ではアクセントに依存しない言語表現を学習するアクセント変換のための新しい非自己回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-07T16:39:34Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language
augmentation for Low Resource Self-Supervised Speech Models [52.92618442300405]
自己教師付き表現学習(SSRL)は、教師付きモデルと比較して下流音素認識の性能を改善した。
SSRLモデルのトレーニングには大量の事前学習データが必要である。
本稿では,低リソース条件下でのSSRLモデルの事前学習に音声拡張を用い,音素認識をダウンストリームタスクとして評価する。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z) - AccentDB: A Database of Non-Native English Accents to Assist Neural
Speech Recognition [3.028098724882708]
まず、ロバストなASRシステムのトレーニングとテストのために、非ネイティブアクセントで音声サンプルの精度の高いデータベースを作成するための重要な要件について説明する。
次に、私たちによって収集された4つのインド英語アクセントのサンプルを含む、そのようなデータベースであるAccentDBを紹介します。
アクセント分類モデルをいくつか提示し, アクセントクラスに対して徹底的に評価する。
論文 参考訳(メタデータ) (2020-05-16T12:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。