論文の概要: Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition
- arxiv url: http://arxiv.org/abs/2408.02582v1
- Date: Mon, 5 Aug 2024 16:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 12:46:43.113837
- Title: Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition
- Title(参考訳): 包括的かつ公平な音声認識のためのクラスタリングとマイニング
- Authors: Jaeyoung Kim, Han Lu, Soheil Khorram, Anshuman Tripathi, Qian Zhang, Hasim Sak,
- Abstract要約: フェア音声認識システムのためのアクセントクラスタリングとマイニング方式を提案する。
アクセント認識のために,教師付きアクセントデータの限られたサイズを克服するために3つのスキームを適用した。
インドアクセント音声の微調整では,無作為なサンプル音声の微調整に比べて10.0%と5.3%の相対的な改善が見られた。
- 参考スコア(独自算出の注目度): 18.90193320368228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern automatic speech recognition (ASR) systems are typically trained on more than tens of thousands hours of speech data, which is one of the main factors for their great success. However, the distribution of such data is typically biased towards common accents or typical speech patterns. As a result, those systems often poorly perform on atypical accented speech. In this paper, we present accent clustering and mining schemes for fair speech recognition systems which can perform equally well on under-represented accented speech. For accent recognition, we applied three schemes to overcome limited size of supervised accent data: supervised or unsupervised pre-training, distributionally robust optimization (DRO) and unsupervised clustering. Three schemes can significantly improve the accent recognition model especially for unbalanced and small accented speech. Fine-tuning ASR on the mined Indian accent speech using the proposed supervised or unsupervised clustering schemes showed 10.0% and 5.3% relative improvements compared to fine-tuning on the randomly sampled speech, respectively.
- Abstract(参考訳): 現代の自動音声認識(ASR)システムは、典型的には数万時間以上の音声データに基づいて訓練されている。
しかし、そのようなデータの分布は通常、一般的なアクセントや典型的な音声パターンに偏っている。
結果として、これらのシステムは非典型的アクセント音声ではあまり機能しないことが多い。
本稿では,アクセントクラスタリングとマイニング方式を提案する。
アクセント認識には,教師付きあるいは教師なし事前学習,分散ロバスト最適化(DRO),教師なしクラスタリングという,教師付きアクセントデータの限られたサイズを克服するために3つのスキームを適用した。
3つのスキームはアクセント認識モデルを大幅に改善することができる。
教師付きクラスタリング方式と教師なしクラスタリング方式を併用したインドアクセント音声の微調整ASRでは,ランダムサンプリング音声の微調整に比べて10.0%と5.3%の相対的な改善が見られた。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Improving Fairness and Robustness in End-to-End Speech Recognition
through unsupervised clustering [49.069298478971696]
エンド・ツー・エンドASRの公平性と堅牢性を改善するためのプライバシー保護手法を提案する。
公開データセット上で訓練された話者IDモデルを用いて発話レベルの埋め込みを抽出する。
モデル学習において,話者発話の埋め込みの代わりにクラスタIDを付加的な特徴として用いた。
論文 参考訳(メタデータ) (2023-06-06T21:13:08Z) - CommonAccent: Exploring Large Acoustic Pretrained Models for Accent
Classification Based on Common Voice [1.559929646151698]
我々は、共通音声7.0(英語)と共通音声11.0(イタリア語、ドイツ語、スペイン語)に基づくアクセント分類のためのSpeechBrainツールキットに合わせたレシピを導入する。
我々は、95%の精度で英語アクセント分類のための新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2023-05-29T17:53:35Z) - Comparing Supervised Models And Learned Speech Representations For
Classifying Intelligibility Of Disordered Speech On Selected Phrases [11.3463024120429]
提案手法は,選択したフレーズに対して,混乱した音声の理解度を分類するために,異なる深層学習手法を開発し,比較する。
各種自己申告障害を有する661人の話者から29の単語やフレーズを発話するサンプルを収集した。
論文 参考訳(メタデータ) (2021-07-08T17:24:25Z) - Accented Speech Recognition: A Survey [0.0]
本稿では,アクセント音声認識に対する現在有望なアプローチに関する調査を行う。
その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。
論文 参考訳(メタデータ) (2021-04-21T20:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。