論文の概要: Improving Self-supervised Pre-training using Accent-Specific Codebooks
- arxiv url: http://arxiv.org/abs/2407.03734v1
- Date: Thu, 4 Jul 2024 08:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:52:18.224826
- Title: Improving Self-supervised Pre-training using Accent-Specific Codebooks
- Title(参考訳): アクセント特化コードブックによる自己指導型事前学習の改善
- Authors: Darshan Prabhu, Abhishek Gupta, Omkar Nitsure, Preethi Jyothi, Sriram Ganapathy,
- Abstract要約: 自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
- 参考スコア(独自算出の注目度): 48.409296549372414
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech accents present a serious challenge to the performance of state-of-the-art end-to-end Automatic Speech Recognition (ASR) systems. Even with self-supervised learning and pre-training of ASR models, accent invariance is seldom achieved. In this work, we propose an accent-aware adaptation technique for self-supervised learning that introduces a trainable set of accent-specific codebooks to the self-supervised architecture. These learnable codebooks enable the model to capture accent specific information during pre-training, that is further refined during ASR finetuning. On the Mozilla Common Voice dataset, our proposed approach outperforms all other accent-adaptation approaches on both seen and unseen English accents, with up to 9% relative reduction in word error rate (WER).
- Abstract(参考訳): 音声アクセントは、最先端のエンドツーエンド音声認識(ASR)システムの性能に深刻な課題をもたらす。
自己教師付き学習やASRモデルの事前学習でさえ、アクセント不変性はほとんど得られない。
本研究では,自己教師型学習のためのアクセント対応適応手法を提案する。
これらの学習可能なコードブックは、事前トレーニング中にアクセント特定情報をキャプチャし、ASRの微調整中にさらに洗練される。
Mozilla Common Voiceデータセットでは、我々の提案手法は、他のアクセント適応アプローチよりも、他のアクセント適応アプローチよりも優れており、最大9%の単語誤り率(WER)が低下している。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Synthetic Cross-accent Data Augmentation for Automatic Speech
Recognition [18.154258453839066]
我々は、ネイティブな米国英語音声をアクセント付き発音に変換するアクセント変換モデル(ACM)を改善した。
我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。
ネイティブ・イングリッシュ・データセットと非ネイティブ・イングリッシュ・データセットに対する我々のアプローチを評価し、合成アクセント付きデータにより、アクセントの出現した音声をよりよく理解できるようになったことを発見した。
論文 参考訳(メタデータ) (2023-03-01T20:05:19Z) - Pushing the performances of ASR models on English and Spanish accents [13.031634839137773]
我々は,事前学習した埋め込みと補助的な分類損失が,ASRシステムの性能をいかに向上させるかを示す。
アップグレードを可能な限り普遍的なものにしたいので、いくつかのモデルアーキテクチャやいくつかの言語への影響について検討します。
論文 参考訳(メタデータ) (2022-12-22T21:48:29Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Multi-Accent Adaptation based on Gate Mechanism [35.76889921807408]
アクセント特異的のトップ層とゲート機構(AST-G)を用いてマルチアクセント適応を実現する。
実世界の応用では、事前に推論のためのアクセントカテゴリーラベルを得ることはできない。
アクセントラベル予測が不正確である可能性があるため、アクセント固有の適応よりも性能が劣る。
論文 参考訳(メタデータ) (2020-11-05T11:58:36Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z) - AccentDB: A Database of Non-Native English Accents to Assist Neural
Speech Recognition [3.028098724882708]
まず、ロバストなASRシステムのトレーニングとテストのために、非ネイティブアクセントで音声サンプルの精度の高いデータベースを作成するための重要な要件について説明する。
次に、私たちによって収集された4つのインド英語アクセントのサンプルを含む、そのようなデータベースであるAccentDBを紹介します。
アクセント分類モデルをいくつか提示し, アクセントクラスに対して徹底的に評価する。
論文 参考訳(メタデータ) (2020-05-16T12:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。