論文の概要: Code Switched and Code Mixed Speech Recognition for Indic languages
- arxiv url: http://arxiv.org/abs/2203.16578v1
- Date: Wed, 30 Mar 2022 18:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 12:26:57.349741
- Title: Code Switched and Code Mixed Speech Recognition for Indic languages
- Title(参考訳): インデックス言語におけるコード切替とコード混合音声認識
- Authors: Harveen Singh Chadha, Priyanshi Shah, Ankur Dhuriya, Neeraj Chhimwal,
Anirudh Gupta, Vivek Raghavan
- Abstract要約: 多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training multilingual automatic speech recognition (ASR) systems is
challenging because acoustic and lexical information is typically language
specific. Training multilingual system for Indic languages is even more tougher
due to lack of open source datasets and results on different approaches. We
compare the performance of end to end multilingual speech recognition system to
the performance of monolingual models conditioned on language identification
(LID). The decoding information from a multilingual model is used for language
identification and then combined with monolingual models to get an improvement
of 50% WER across languages. We also propose a similar technique to solve the
Code Switched problem and achieve a WER of 21.77 and 28.27 over Hindi-English
and Bengali-English respectively. Our work talks on how transformer based ASR
especially wav2vec 2.0 can be applied in developing multilingual ASR and code
switched ASR for Indic languages.
- Abstract(参考訳): 音響情報や語彙情報は通常言語固有であるため、多言語自動音声認識(asr)システムの訓練は困難である。
Indic言語のための多言語システムのトレーニングは、オープンソースデータセットの欠如と異なるアプローチによる結果のために、さらに難しい。
言語識別 (LID) に基づく単言語モデルの性能と比較し, エンドツーエンドの多言語音声認識システムの性能を比較した。
多言語モデルからの復号情報は言語識別に使用され、言語間で50%の改善を得るために単言語モデルと組み合わせられる。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
本稿では,多言語asrの開発においてトランスフォーマティブベースのasr,特にwav2vec 2.0をどのように適用できるかについて述べる。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文 参考訳(メタデータ) (2023-10-11T12:15:24Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Dual Script E2E framework for Multilingual and Code-Switching ASR [4.697788649564087]
インド語のための多言語およびコードスイッチングASRシステムを訓練する。
テキスト音声合成の結果に触発されて、私たちは社内ルールベースの共通ラベルセット(CLS)表現を使用する。
Indic ASR Challenge 2021の多言語およびコードスイッチングタスクについて,本研究の結果を示す。
論文 参考訳(メタデータ) (2021-06-02T18:08:27Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。