論文の概要: Improving Accented Speech Recognition with Multi-Domain Training
- arxiv url: http://arxiv.org/abs/2303.07924v1
- Date: Tue, 14 Mar 2023 14:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 14:43:16.679366
- Title: Improving Accented Speech Recognition with Multi-Domain Training
- Title(参考訳): マルチドメイン学習によるアクセント音声認識の改善
- Authors: Lucas Maison, Yannick Est\`eve
- Abstract要約: 我々は、4つの異なるフランス語アクセントを表す音声を用いて、事前訓練されたASRモデルの堅牢性を改善する微調整データセットを作成する。
数値実験により,アフリカやベルギーのアクセントに対して,誤り率を最大25%(相対的に)下げることができた。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Thanks to the rise of self-supervised learning, automatic speech recognition
(ASR) systems now achieve near-human performance on a wide variety of datasets.
However, they still lack generalization capability and are not robust to domain
shifts like accent variations. In this work, we use speech audio representing
four different French accents to create fine-tuning datasets that improve the
robustness of pre-trained ASR models. By incorporating various accents in the
training set, we obtain both in-domain and out-of-domain improvements. Our
numerical experiments show that we can reduce error rates by up to 25%
(relative) on African and Belgian accents compared to single-domain training
while keeping a good performance on standard French.
- Abstract(参考訳): 自己教師付き学習の台頭により、音声認識(asr)システムは様々なデータセットで人間に近いパフォーマンスを達成している。
しかし、それらはまだ一般化能力がなく、アクセントのバリエーションのようなドメインシフトに対して堅牢ではない。
本研究では、4つの異なるフランス語アクセントを表す音声を用いて、事前学習されたASRモデルの堅牢性を改善するための微調整データセットを作成する。
トレーニングセットに様々なアクセントを組み込むことにより、ドメイン内およびドメイン外の両方の改善を得る。
数値実験の結果,アフリカ・ベルギーのアクセントにおいて,標準フランス語では高い性能を維持しつつ,単ドメイン学習に比べて最大25%(相対)の誤り率を低減できることがわかった。
関連論文リスト
- Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Improving Speech Recognition for African American English With Audio
Classification [17.785482810741367]
本稿では,少数のドメイン外データを用いて,米国英語短波形音声認識器の頑健性を向上させる新しい手法を提案する。
このデータを微調整すると、MAEの品質を低下させることなくAAEとMAEの間で38.5%の単語誤り率格差が減少する。
論文 参考訳(メタデータ) (2023-09-16T19:57:45Z) - A meta learning scheme for fast accent domain expansion in Mandarin
speech recognition [22.126817828698563]
音声言語は、マンダリンとアクセントに有意な変化を示す。
マンダリン自動音声認識(ASR)の性能は高いが,アクセントASRは依然として課題である。
マンダリン音声認識における高速アクセント領域拡張のためのメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-07-23T08:23:26Z) - Replay to Remember: Continual Layer-Specific Fine-tuning for German
Speech Recognition [19.635428830237842]
大規模ASRモデルの性能は,より小さな領域に対してどのように近似できるかを検討する。
本研究では,ASRモデルの頑健性を高めるために,連続学習に経験リプレイを適用した。
論文 参考訳(メタデータ) (2023-07-14T11:20:22Z) - OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality
Alignment [57.15449072423539]
オープンモダリティ音声認識(textbfOpenSR)の学習システムを提案する。
OpenSRは、3つの異なる設定で1から1へのモダリティ転送を可能にする。
既存の数ショットとフルショットのリップリード方式と比較して、非常に競争力のあるゼロショット性能を実現している。
論文 参考訳(メタデータ) (2023-06-10T11:04:10Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Improving low-resource ASR performance with untranscribed out-of-domain
data [8.376091455761259]
半教師あり訓練(SST)は、非転写/ラベルなし音声データを活用する一般的な手法である。
Web リソースを用いた会話/電話音声(ターゲットドメイン)の性能向上を図る。
論文 参考訳(メタデータ) (2021-06-02T15:23:34Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。