論文の概要: Dual Script E2E framework for Multilingual and Code-Switching ASR
- arxiv url: http://arxiv.org/abs/2106.01400v1
- Date: Wed, 2 Jun 2021 18:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 15:56:08.009373
- Title: Dual Script E2E framework for Multilingual and Code-Switching ASR
- Title(参考訳): multilingual and code-switching asrのためのデュアルスクリプトe2eフレームワーク
- Authors: Mari Ganesh Kumar, Jom Kuriakose, Anand Thyagachandran, Arun Kumar A,
Ashish Seth, Lodagala Durga Prasad, Saish Jaiswal, Anusha Prakash, Hema
Murthy
- Abstract要約: インド語のための多言語およびコードスイッチングASRシステムを訓練する。
テキスト音声合成の結果に触発されて、私たちは社内ルールベースの共通ラベルセット(CLS)表現を使用する。
Indic ASR Challenge 2021の多言語およびコードスイッチングタスクについて,本研究の結果を示す。
- 参考スコア(独自算出の注目度): 4.697788649564087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: India is home to multiple languages, and training automatic speech
recognition (ASR) systems for languages is challenging. Over time, each
language has adopted words from other languages, such as English, leading to
code-mixing. Most Indian languages also have their own unique scripts, which
poses a major limitation in training multilingual and code-switching ASR
systems.
Inspired by results in text-to-speech synthesis, in this work, we use an
in-house rule-based phoneme-level common label set (CLS) representation to
train multilingual and code-switching ASR for Indian languages. We propose two
end-to-end (E2E) ASR systems. In the first system, the E2E model is trained on
the CLS representation, and we use a novel data-driven back-end to recover the
native language script. In the second system, we propose a modification to the
E2E model, wherein the CLS representation and the native language characters
are used simultaneously for training. We show our results on the multilingual
and code-switching tasks of the Indic ASR Challenge 2021. Our best results
achieve 6% and 5% improvement (approx) in word error rate over the baseline
system for the multilingual and code-switching tasks, respectively, on the
challenge development data.
- Abstract(参考訳): インドには複数の言語があるが、言語の自動音声認識(asr)システムの訓練は難しい。
時間とともに、各言語は英語などの他の言語からの単語を採用し、コードミキシングに繋がる。
インドのほとんどの言語にも独自のスクリプトがあり、多言語およびコードスイッチングASRシステムのトレーニングにおいて大きな制限となる。
本研究は,テキスト音声合成の結果に触発されて,インド語の多言語およびコードスイッチングASRを学習するために,社内ルールベースの音素レベル共通ラベルセット(CLS)表現を使用する。
本稿では2つのエンドツーエンド(E2E)ASRシステムを提案する。
最初のシステムでは、E2EモデルはCLS表現に基づいて訓練され、我々はネイティブ言語スクリプトを復元するために、新しいデータ駆動バックエンドを使用する。
第2のシステムでは,CLS表現とネイティブ言語文字を同時に学習に使用するE2Eモデルの変更を提案する。
我々は,indic asr challenge 2021の多言語およびコードスイッチングタスクについて結果を示す。
課題開発データに基づいて,多言語タスクとコードスイッチングタスクのベースラインシステムに対する単語誤り率の6%と5%の改善(近似)を実現した。
関連論文リスト
- DuDe: Dual-Decoder Multilingual ASR for Indian Languages using Common
Label Set [0.0]
Common Label Set (CLS) は、共通ラベルに似た音を持つ様々な言語のグラフエムをマッピングする。
インドの言語はほとんどが音声言語であるため、ネイティブスクリプトからCLSに変換するための音訳を構築するのは簡単である。
本稿では,多言語システム構築のためのMultilingual-Decoder-Decoderという新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-30T04:01:26Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Transformer-Transducers for Code-Switched Speech Recognition [23.281314397784346]
コード切替音声認識のためのトランスフォーマー・トランスデューサモデルアーキテクチャを用いたエンドツーエンドのASRシステムを提案する。
まず、コードスイッチングの低リソースシナリオを扱うために、2つの補助損失関数を導入する。
第二に,言語ID情報を用いた新しいマスクベースのトレーニング戦略を提案し,文内コードスイッチングに向けたラベルエンコーダのトレーニングを改善する。
論文 参考訳(メタデータ) (2020-11-30T17:27:41Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。