論文の概要: AccentDB: A Database of Non-Native English Accents to Assist Neural
Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.07973v1
- Date: Sat, 16 May 2020 12:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:40:58.553015
- Title: AccentDB: A Database of Non-Native English Accents to Assist Neural
Speech Recognition
- Title(参考訳): AccentDB: ニューラル音声認識を支援する非負の英語アクセントデータベース
- Authors: Afroz Ahamad, Ankit Anand, Pranesh Bhargava
- Abstract要約: まず、ロバストなASRシステムのトレーニングとテストのために、非ネイティブアクセントで音声サンプルの精度の高いデータベースを作成するための重要な要件について説明する。
次に、私たちによって収集された4つのインド英語アクセントのサンプルを含む、そのようなデータベースであるAccentDBを紹介します。
アクセント分類モデルをいくつか提示し, アクセントクラスに対して徹底的に評価する。
- 参考スコア(独自算出の注目度): 3.028098724882708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Automatic Speech Recognition (ASR) technology has evolved to identify
the speech spoken by native speakers of a language very well. However,
identification of the speech spoken by non-native speakers continues to be a
major challenge for it. In this work, we first spell out the key requirements
for creating a well-curated database of speech samples in non-native accents
for training and testing robust ASR systems. We then introduce AccentDB, one
such database that contains samples of 4 Indian-English accents collected by
us, and a compilation of samples from 4 native-English, and a metropolitan
Indian-English accent. We also present an analysis on separability of the
collected accent data. Further, we present several accent classification models
and evaluate them thoroughly against human-labelled accent classes. We test the
generalization of our classifier models in a variety of setups of seen and
unseen data. Finally, we introduce the task of accent neutralization of
non-native accents to native accents using autoencoder models with
task-specific architectures. Thus, our work aims to aid ASR systems at every
stage of development with a database for training, classification models for
feature augmentation, and neutralization systems for acoustic transformations
of non-native accents of English.
- Abstract(参考訳): 現代の自動音声認識(asr)技術は、言語の母語話者が話す音声を非常によく識別するために進化してきた。
しかし、非母語話者が話す音声の識別は依然として大きな課題である。
本稿では,まず,頑健なasrシステムのトレーニングとテストのために,非ネイティブアクセントを用いた音声サンプルデータベース作成のための重要な要件について述べる。
次に、アメリカが収集した4つのインド英語アクセントのサンプルと、4つのネイティブ英語のサンプルと、インド英語アクセントのメトロポリタンを含むデータベースaccentdbを紹介する。
また,収集したアクセントデータの分離性について分析する。
さらに,アクセント分類モデルをいくつか提示し,アクセントクラスに対して徹底的に評価する。
分類器モデルの一般化を、目に見えるデータや見えないデータの様々な設定で検証する。
最後に,タスク固有のアーキテクチャを持つオートエンコーダモデルを用いて,非ネイティブアクセントのアクセントをネイティブアクセントに中和するタスクを導入する。
そこで本研究では,英語非母語アクセントの音響変換のための学習用データベース,特徴拡張のための分類モデル,中性化システムを用いて,開発の各段階におけるasrシステムを支援することを目的とした。
関連論文リスト
- Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS [52.89324095217975]
アクセント変換に対する従来のアプローチは主に非ネイティブ音声をよりネイティブにすることを目的としていた。
我々は、アクセント変換だけでなく、非ネイティブアクセント話者の発音を改善する新しいACアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-19T06:12:31Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - Transfer the linguistic representations from TTS to accent conversion
with non-parallel data [7.376032484438044]
アクセント変換は、話者のアイデンティティを保ちながら、ソース音声のアクセントをターゲットアクセントに変換することを目的としている。
本稿ではアクセントに依存しない言語表現を学習するアクセント変換のための新しい非自己回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-07T16:39:34Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - CommonAccent: Exploring Large Acoustic Pretrained Models for Accent
Classification Based on Common Voice [1.559929646151698]
我々は、共通音声7.0(英語)と共通音声11.0(イタリア語、ドイツ語、スペイン語)に基づくアクセント分類のためのSpeechBrainツールキットに合わせたレシピを導入する。
我々は、95%の精度で英語アクセント分類のための新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2023-05-29T17:53:35Z) - Synthetic Cross-accent Data Augmentation for Automatic Speech
Recognition [18.154258453839066]
我々は、ネイティブな米国英語音声をアクセント付き発音に変換するアクセント変換モデル(ACM)を改善した。
我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。
ネイティブ・イングリッシュ・データセットと非ネイティブ・イングリッシュ・データセットに対する我々のアプローチを評価し、合成アクセント付きデータにより、アクセントの出現した音声をよりよく理解できるようになったことを発見した。
論文 参考訳(メタデータ) (2023-03-01T20:05:19Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。