論文の概要: CommonAccent: Exploring Large Acoustic Pretrained Models for Accent
Classification Based on Common Voice
- arxiv url: http://arxiv.org/abs/2305.18283v1
- Date: Mon, 29 May 2023 17:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 13:31:42.618242
- Title: CommonAccent: Exploring Large Acoustic Pretrained Models for Accent
Classification Based on Common Voice
- Title(参考訳): CommonAccent:共通音声に基づくアクセント分類のための大規模音響事前学習モデルの探索
- Authors: Juan Zuluaga-Gomez and Sara Ahmed and Danielius Visockas and Cem
Subakan
- Abstract要約: 我々は、共通音声7.0(英語)と共通音声11.0(イタリア語、ドイツ語、スペイン語)に基づくアクセント分類のためのSpeechBrainツールキットに合わせたレシピを導入する。
我々は、95%の精度で英語アクセント分類のための新しい最先端技術を確立した。
- 参考スコア(独自算出の注目度): 1.559929646151698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent advancements in Automatic Speech Recognition (ASR), the
recognition of accented speech still remains a dominant problem. In order to
create more inclusive ASR systems, research has shown that the integration of
accent information, as part of a larger ASR framework, can lead to the
mitigation of accented speech errors. We address multilingual accent
classification through the ECAPA-TDNN and Wav2Vec 2.0/XLSR architectures which
have been proven to perform well on a variety of speech-related downstream
tasks. We introduce a simple-to-follow recipe aligned to the SpeechBrain
toolkit for accent classification based on Common Voice 7.0 (English) and
Common Voice 11.0 (Italian, German, and Spanish). Furthermore, we establish new
state-of-the-art for English accent classification with as high as 95%
accuracy. We also study the internal categorization of the Wav2Vev 2.0
embeddings through t-SNE, noting that there is a level of clustering based on
phonological similarity. (Our recipe is open-source in the SpeechBrain toolkit,
see: https://github.com/speechbrain/speechbrain/tree/develop/recipes)
- Abstract(参考訳): 近年の音声認識(ASR)の進歩にもかかわらず、アクセント付き音声認識は依然として大きな問題である。
より包括的なASRシステムを構築するために、より大きなASRフレームワークの一部としてアクセント情報の統合がアクセント付き音声誤りの軽減につながることが研究で示されている。
本稿では,ecapa-tdnnとwav2vec 2.0/xlsrアーキテクチャによる多言語アクセント分類について述べる。
我々は、共通音声7.0(英語)と共通音声11.0(イタリア語、ドイツ語、スペイン語)に基づくアクセント分類のためのSpeechBrainツールキットに合わせた簡易なフォローレシピを提案する。
さらに、95%の精度で英語アクセント分類のための新しい最先端技術を確立した。
また, 音韻的類似性に基づくクラスタリングのレベルがあることから, t-SNEによるWav2Vev 2.0埋め込みの内部分類についても検討した。
(当社のレシピは speechbrain toolkit でオープンソースです。 https://github.com/speechbrain/speechbrain/tree/develop/recipes)
関連論文リスト
- Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS [52.89324095217975]
アクセント変換に対する従来のアプローチは主に非ネイティブ音声をよりネイティブにすることを目的としていた。
我々は、アクセント変換だけでなく、非ネイティブアクセント話者の発音を改善する新しいACアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-19T06:12:31Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。
本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文 参考訳(メタデータ) (2024-06-03T05:56:02Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Synthetic Cross-accent Data Augmentation for Automatic Speech
Recognition [18.154258453839066]
我々は、ネイティブな米国英語音声をアクセント付き発音に変換するアクセント変換モデル(ACM)を改善した。
我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。
ネイティブ・イングリッシュ・データセットと非ネイティブ・イングリッシュ・データセットに対する我々のアプローチを評価し、合成アクセント付きデータにより、アクセントの出現した音声をよりよく理解できるようになったことを発見した。
論文 参考訳(メタデータ) (2023-03-01T20:05:19Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z) - Improving Accent Conversion with Reference Encoder and End-To-End
Text-To-Speech [23.30022534796909]
アクセント変換(AC)は、話者の声の音色を維持しながら、非ネイティブ話者のアクセントをネイティブアクセントに変換する。
本稿では,アクセント変換の適用性の向上と品質向上のためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T08:09:58Z) - AccentDB: A Database of Non-Native English Accents to Assist Neural
Speech Recognition [3.028098724882708]
まず、ロバストなASRシステムのトレーニングとテストのために、非ネイティブアクセントで音声サンプルの精度の高いデータベースを作成するための重要な要件について説明する。
次に、私たちによって収集された4つのインド英語アクセントのサンプルを含む、そのようなデータベースであるAccentDBを紹介します。
アクセント分類モデルをいくつか提示し, アクセントクラスに対して徹底的に評価する。
論文 参考訳(メタデータ) (2020-05-16T12:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。