論文の概要: Improving Accented Speech Recognition with Multi-Domain Training
- arxiv url: http://arxiv.org/abs/2303.07924v1
- Date: Tue, 14 Mar 2023 14:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 14:43:16.679366
- Title: Improving Accented Speech Recognition with Multi-Domain Training
- Title(参考訳): マルチドメイン学習によるアクセント音声認識の改善
- Authors: Lucas Maison, Yannick Est\`eve
- Abstract要約: 我々は、4つの異なるフランス語アクセントを表す音声を用いて、事前訓練されたASRモデルの堅牢性を改善する微調整データセットを作成する。
数値実験により,アフリカやベルギーのアクセントに対して,誤り率を最大25%(相対的に)下げることができた。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Thanks to the rise of self-supervised learning, automatic speech recognition
(ASR) systems now achieve near-human performance on a wide variety of datasets.
However, they still lack generalization capability and are not robust to domain
shifts like accent variations. In this work, we use speech audio representing
four different French accents to create fine-tuning datasets that improve the
robustness of pre-trained ASR models. By incorporating various accents in the
training set, we obtain both in-domain and out-of-domain improvements. Our
numerical experiments show that we can reduce error rates by up to 25%
(relative) on African and Belgian accents compared to single-domain training
while keeping a good performance on standard French.
- Abstract(参考訳): 自己教師付き学習の台頭により、音声認識(asr)システムは様々なデータセットで人間に近いパフォーマンスを達成している。
しかし、それらはまだ一般化能力がなく、アクセントのバリエーションのようなドメインシフトに対して堅牢ではない。
本研究では、4つの異なるフランス語アクセントを表す音声を用いて、事前学習されたASRモデルの堅牢性を改善するための微調整データセットを作成する。
トレーニングセットに様々なアクセントを組み込むことにより、ドメイン内およびドメイン外の両方の改善を得る。
数値実験の結果,アフリカ・ベルギーのアクセントにおいて,標準フランス語では高い性能を維持しつつ,単ドメイン学習に比べて最大25%(相対)の誤り率を低減できることがわかった。
関連論文リスト
- From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Pushing the performances of ASR models on English and Spanish accents [13.031634839137773]
我々は,事前学習した埋め込みと補助的な分類損失が,ASRシステムの性能をいかに向上させるかを示す。
アップグレードを可能な限り普遍的なものにしたいので、いくつかのモデルアーキテクチャやいくつかの言語への影響について検討します。
論文 参考訳(メタデータ) (2022-12-22T21:48:29Z) - Language-agnostic Code-Switching in End-To-End Speech Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
その結果,5,03% WERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上させることが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - Data Augmentation based Consistency Contrastive Pre-training for
Automatic Speech Recognition [18.303072203996347]
自動音声認識(ASR)タスクにおいて、自己教師付き音響事前学習は驚くべき結果を得た。
音響事前学習法の多くは、コントラスト学習を用いて音響表現を学習する。
本稿では,音声事前学習のためのデータ拡張を利用して,新しいコントラスト学習法(CCL)を設計する。
論文 参考訳(メタデータ) (2021-12-23T13:23:17Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Improving low-resource ASR performance with untranscribed out-of-domain
data [8.376091455761259]
半教師あり訓練(SST)は、非転写/ラベルなし音声データを活用する一般的な手法である。
Web リソースを用いた会話/電話音声(ターゲットドメイン)の性能向上を図る。
論文 参考訳(メタデータ) (2021-06-02T15:23:34Z) - Accented Speech Recognition Inspired by Human Perception [0.0]
本論文では,アクセント音声の認識のためのパフォーマンス改善の可能性を評価するために,人間の知覚に触発された手法を検討する。
我々は、複数のアクセントへの事前露出、graphemeと音素に基づく発音、ドロップアウト、特にアクセントモデリングに関連付けられるニューラルネットワークのレイヤの識別の4つの手法を検討した。
本研究では, 人間の知覚に基づく手法が, WER の低減と, ニューラルネットワークにおけるアクセント音声のモデル化方法の理解に有望であることを示した。
論文 参考訳(メタデータ) (2021-04-09T22:35:09Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。