論文の概要: Multilingual and code-switching ASR challenges for low resource Indian
languages
- arxiv url: http://arxiv.org/abs/2104.00235v1
- Date: Thu, 1 Apr 2021 03:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 04:08:33.343338
- Title: Multilingual and code-switching ASR challenges for low resource Indian
languages
- Title(参考訳): 低資源インド語における多言語およびコードスイッチングASR課題
- Authors: Anuj Diwan, Rakesh Vaideeswaran, Sanket Shah, Ankita Singh, Srinivasa
Raghavan, Shreya Khare, Vinit Unni, Saurabh Vyas, Akash Rajpuria, Chiranjeevi
Yarra, Ashish Mittal, Prasanta Kumar Ghosh, Preethi Jyothi, Kalika Bali,
Vivek Seshadri, Sunayana Sitaram, Samarth Bharadwaj, Jai Nanavati, Raoul
Nanavati, Karthik Sankaranarayanan, Tejaswi Seeram and Basil Abraham
- Abstract要約: インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
- 参考スコア(独自算出の注目度): 59.2906853285309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there is increasing interest in multilingual automatic speech
recognition (ASR) where a speech recognition system caters to multiple low
resource languages by taking advantage of low amounts of labeled corpora in
multiple languages. With multilingualism becoming common in today's world,
there has been increasing interest in code-switching ASR as well. In
code-switching, multiple languages are freely interchanged within a single
sentence or between sentences. The success of low-resource multilingual and
code-switching ASR often depends on the variety of languages in terms of their
acoustics, linguistic characteristics as well as the amount of data available
and how these are carefully considered in building the ASR system. In this
challenge, we would like to focus on building multilingual and code-switching
ASR systems through two different subtasks related to a total of seven Indian
languages, namely Hindi, Marathi, Odia, Tamil, Telugu, Gujarati and Bengali.
For this purpose, we provide a total of ~600 hours of transcribed speech data,
comprising train and test sets, in these languages including two code-switched
language pairs, Hindi-English and Bengali-English. We also provide a baseline
recipe for both the tasks with a WER of 30.73% and 32.45% on the test sets of
multilingual and code-switching subtasks, respectively.
- Abstract(参考訳): 近年,低量のラベル付きコーパスを多言語で活用することにより,音声認識システムが複数の低リソース言語に対応できる多言語自動音声認識(ASR)への関心が高まっている。
今日の世界では多言語主義が一般的になり、コードスイッチング ASR にも関心が高まっている。
コードスイッチングでは、複数の言語が単一の文内または文間で自由に交換される。
低リソース多言語およびコードスイッチングASRの成功は、しばしばアコースティックス、言語特性、利用可能なデータ量、そしてこれらがASRシステムの構築においてどのように慎重に検討されているかという点で様々な言語に依存する。
この課題では、ヒンディー語、マラティー語、オディア語、タミル語、テルグ語、グジャラート語、ベンガル語という合計7つのインドの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に焦点を合わせたいと思います。
この目的のために,Hindi- English と Bengali- English の2つのコード交換言語対を含む,列車とテストセットからなる約600時間の音声データを提供する。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
関連論文リスト
- DuDe: Dual-Decoder Multilingual ASR for Indian Languages using Common
Label Set [0.0]
Common Label Set (CLS) は、共通ラベルに似た音を持つ様々な言語のグラフエムをマッピングする。
インドの言語はほとんどが音声言語であるため、ネイティブスクリプトからCLSに変換するための音訳を構築するのは簡単である。
本稿では,多言語システム構築のためのMultilingual-Decoder-Decoderという新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-30T04:01:26Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Dual Script E2E framework for Multilingual and Code-Switching ASR [4.697788649564087]
インド語のための多言語およびコードスイッチングASRシステムを訓練する。
テキスト音声合成の結果に触発されて、私たちは社内ルールベースの共通ラベルセット(CLS)表現を使用する。
Indic ASR Challenge 2021の多言語およびコードスイッチングタスクについて,本研究の結果を示す。
論文 参考訳(メタデータ) (2021-06-02T18:08:27Z) - Exploiting Spectral Augmentation for Code-Switched Spoken Language
Identification [2.064612766965483]
音声によるLIDを3つのインド語で実行し、それを英語と混合する。
このタスクは、Microsoftの研究チームによって、話し言葉のLIDチャレンジとして組織された。
論文 参考訳(メタデータ) (2020-10-14T14:37:03Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。