論文の概要: Learning not to Discriminate: Task Agnostic Learning for Improving
Monolingual and Code-switched Speech Recognition
- arxiv url: http://arxiv.org/abs/2006.05257v1
- Date: Tue, 9 Jun 2020 13:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:20:18.819440
- Title: Learning not to Discriminate: Task Agnostic Learning for Improving
Monolingual and Code-switched Speech Recognition
- Title(参考訳): 識別しない学習:単言語およびコードスイッチ音声認識を改善するタスク非依存学習
- Authors: Gurunath Reddy Madhumani, Sanket Shah, Basil Abraham, Vikas Joshi,
Sunayana Sitaram
- Abstract要約: 本稿では、ドメイン逆学習を用いてタスクモデルを訓練することにより、これまでの作業よりもさらに改善する。
提案手法は,単語誤り率(WER)を3つの言語対に対して単言語およびコード切替テストセットで削減する。
- 参考スコア(独自算出の注目度): 12.354292498112347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing code-switched speech is challenging for Automatic Speech
Recognition (ASR) for a variety of reasons, including the lack of code-switched
training data. Recently, we showed that monolingual ASR systems fine-tuned on
code-switched data deteriorate in performance on monolingual speech
recognition, which is not desirable as ASR systems deployed in multilingual
scenarios should recognize both monolingual and code-switched speech with high
accuracy. Our experiments indicated that this loss in performance could be
mitigated by using certain strategies for fine-tuning and regularization,
leading to improvements in both monolingual and code-switched ASR. In this
work, we present further improvements over our previous work by using domain
adversarial learning to train task agnostic models. We evaluate the
classification accuracy of an adversarial discriminator and show that it can
learn shared layer parameters that are task agnostic. We train end-to-end ASR
systems starting with a pooled model that uses monolingual and code-switched
data along with the adversarial discriminator. Our proposed technique leads to
reductions in Word Error Rates (WER) in monolingual and code-switched test sets
across three language pairs.
- Abstract(参考訳): コード切り替わった音声を認識することは、コード切り替わったトレーニングデータの欠如など、さまざまな理由から自動音声認識(asr)では困難である。
近年,多言語シナリオに展開されるASRシステムは,単言語音声と符号音声の両方を高精度に認識する必要があるため,単言語音声認識の性能が低下していることが示されている。
実験の結果、この性能低下は微調整と正規化の戦略によって軽減され、モノリンガルとコードスイッチングの両方のASRの改善がもたらされた。
本研究では,タスク非依存モデルの学習にドメイン逆学習を用いることで,これまでの作業よりもさらに改善する。
逆微分器の分類精度を評価し,タスクに依存しない共有層パラメータを学習可能であることを示す。
我々は、単言語データとコード切替データと対向判別器を使用するプールモデルから始まるエンドツーエンドのASRシステムを訓練する。
提案手法は,単語誤り率(WER)を3つの言語ペア間で単言語およびコード切替テストセットで削減する。
関連論文リスト
- Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Learning to Recognize Code-switched Speech Without Forgetting
Monolingual Speech Recognition [14.559210845981605]
コード切替音声における微調整ASRモデルが単言語音声の性能を損なうことを示す。
単言語精度を犠牲にすることなく、コードスイッチングのための微調整モデルの正規化戦略を提案する。
論文 参考訳(メタデータ) (2020-06-01T08:16:24Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。