論文の概要: Learning to Recognize Code-switched Speech Without Forgetting
Monolingual Speech Recognition
- arxiv url: http://arxiv.org/abs/2006.00782v1
- Date: Mon, 1 Jun 2020 08:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 07:35:10.888240
- Title: Learning to Recognize Code-switched Speech Without Forgetting
Monolingual Speech Recognition
- Title(参考訳): 単言語音声認識を使わずにコード変更音声を認識する学習
- Authors: Sanket Shah, Basil Abraham, Gurunath Reddy M, Sunayana Sitaram, Vikas
Joshi
- Abstract要約: コード切替音声における微調整ASRモデルが単言語音声の性能を損なうことを示す。
単言語精度を犠牲にすることなく、コードスイッチングのための微調整モデルの正規化戦略を提案する。
- 参考スコア(独自算出の注目度): 14.559210845981605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been significant progress made in Automatic Speech
Recognition (ASR) of code-switched speech, leading to gains in accuracy on
code-switched datasets in many language pairs. Code-switched speech co-occurs
with monolingual speech in one or both languages being mixed. In this work, we
show that fine-tuning ASR models on code-switched speech harms performance on
monolingual speech. We point out the need to optimize models for code-switching
while also ensuring that monolingual performance is not sacrificed. Monolingual
models may be trained on thousands of hours of speech which may not be
available for re-training a new model. We propose using the Learning Without
Forgetting (LWF) framework for code-switched ASR when we only have access to a
monolingual model and do not have the data it was trained on. We show that it
is possible to train models using this framework that perform well on both
code-switched and monolingual test sets. In cases where we have access to
monolingual training data as well, we propose regularization strategies for
fine-tuning models for code-switching without sacrificing monolingual accuracy.
We report improvements in Word Error Rate (WER) in monolingual and
code-switched test sets compared to baselines that use pooled data and simple
fine-tuning.
- Abstract(参考訳): 近年,コード切替音声の自動音声認識(ASR)が大幅に進歩し,多くの言語ペアにおけるコード切替データセットの精度が向上している。
符号切替音声は、1つの言語または両方の言語で単言語音声と共起する。
本稿では,符号切替音声におけるasrモデルの微調整が,単言語音声の性能を損なうことを示す。
コードスイッチングのためのモデルを最適化すると同時に、モノリンガルのパフォーマンスが犠牲にならないようにする必要性を指摘する。
モノリンガルモデルは、新しいモデルを再トレーニングすることができない何千時間ものスピーチでトレーニングすることができる。
単言語モデルにしかアクセスできず、トレーニングされたデータを持たない場合、コードスイッチングASRにLearning Forgetting(LWF)フレームワークを使用することを提案する。
コード切替テストと単言語テストの両方でうまく機能するこのフレームワークを使用してモデルをトレーニングできることを示す。
単言語学習データにもアクセスできる場合、単言語精度を犠牲にすることなく、コードスイッチングのための微調整モデルの正規化戦略を提案する。
単一言語およびコードスイッチテストセットにおける単語誤り率(wer)の改善を,プールデータと単純な微調整を用いたベースラインと比較して報告する。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文 参考訳(メタデータ) (2023-10-11T12:15:24Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models [1.827510863075184]
NLU(Multilingual natural Language understanding)の新たなベンチマークには、意図とスロットを付加した複数の言語での単言語文が含まれる。
既存のベンチマークでは、文法構造が複雑であるため、収集やラベル付けが困難であるコードスイッチ付き発話が欠如している。
我々の研究は、可塑性で自然な発声音声を生成するための認識された手法を採用し、それらを用いて合成コード発声テストセットを作成する。
論文 参考訳(メタデータ) (2021-09-29T11:15:00Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - Learning not to Discriminate: Task Agnostic Learning for Improving
Monolingual and Code-switched Speech Recognition [12.354292498112347]
本稿では、ドメイン逆学習を用いてタスクモデルを訓練することにより、これまでの作業よりもさらに改善する。
提案手法は,単語誤り率(WER)を3つの言語対に対して単言語およびコード切替テストセットで削減する。
論文 参考訳(メタデータ) (2020-06-09T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。