論文の概要: Transformer-Transducers for Code-Switched Speech Recognition
- arxiv url: http://arxiv.org/abs/2011.15023v2
- Date: Mon, 15 Feb 2021 02:46:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 14:41:38.454508
- Title: Transformer-Transducers for Code-Switched Speech Recognition
- Title(参考訳): 符号切替音声認識用トランスデューサ
- Authors: Siddharth Dalmia, Yuzong Liu, Srikanth Ronanki, Katrin Kirchhoff
- Abstract要約: コード切替音声認識のためのトランスフォーマー・トランスデューサモデルアーキテクチャを用いたエンドツーエンドのASRシステムを提案する。
まず、コードスイッチングの低リソースシナリオを扱うために、2つの補助損失関数を導入する。
第二に,言語ID情報を用いた新しいマスクベースのトレーニング戦略を提案し,文内コードスイッチングに向けたラベルエンコーダのトレーニングを改善する。
- 参考スコア(独自算出の注目度): 23.281314397784346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We live in a world where 60% of the population can speak two or more
languages fluently. Members of these communities constantly switch between
languages when having a conversation. As automatic speech recognition (ASR)
systems are being deployed to the real-world, there is a need for practical
systems that can handle multiple languages both within an utterance or across
utterances. In this paper, we present an end-to-end ASR system using a
transformer-transducer model architecture for code-switched speech recognition.
We propose three modifications over the vanilla model in order to handle
various aspects of code-switching. First, we introduce two auxiliary loss
functions to handle the low-resource scenario of code-switching. Second, we
propose a novel mask-based training strategy with language ID information to
improve the label encoder training towards intra-sentential code-switching.
Finally, we propose a multi-label/multi-audio encoder structure to leverage the
vast monolingual speech corpora towards code-switching. We demonstrate the
efficacy of our proposed approaches on the SEAME dataset, a public
Mandarin-English code-switching corpus, achieving a mixed error rate of 18.5%
and 26.3% on test_man and test_sge sets respectively.
- Abstract(参考訳): 私たちは人口の60%が2つ以上の言語を流麗に話せる世界に住んでいます。
これらのコミュニティのメンバーは、会話をするときに常に言語を切り替えます。
音声認識(ASR)システムが現実世界に展開されているため、発話中または発話中の両方で複数の言語を処理できる実用的なシステムが必要である。
本稿では,コード切替音声認識のためのトランスデューサモデルアーキテクチャを用いたエンドツーエンドASRシステムを提案する。
コードスイッチングのさまざまな側面を扱うために,バニラモデルに対する3つの修正を提案する。
まず,コードスイッチングの低リソースシナリオを処理するために,補助損失関数を2つ導入する。
第二に,言語ID情報を用いた新しいマスクベースのトレーニング戦略を提案し,文内コードスイッチングに向けたラベルエンコーダのトレーニングを改善する。
最後に,膨大な単言語音声コーパスをコードスイッチングに活用するマルチラベル/マルチオーディオエンコーダ構造を提案する。
提案手法は,公開マンダ英語コード交換コーパスであるseameデータセットにおいて,test_manとtest_sgeでそれぞれ18.5%と26.3%の混合エラー率を達成した。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文 参考訳(メタデータ) (2023-10-11T12:15:24Z) - Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages [49.6922490267701]
我々は,自己教師型音声エンコーダのコード切替能力を評価するために,ゼロリソースコード切替音声ベンチマークを導入した。
本稿では,音声エンコーダのコードスイッチング能力を評価するために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:58:11Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。