論文の概要: DuDe: Dual-Decoder Multilingual ASR for Indian Languages using Common
Label Set
- arxiv url: http://arxiv.org/abs/2210.16739v1
- Date: Sun, 30 Oct 2022 04:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:16:11.575582
- Title: DuDe: Dual-Decoder Multilingual ASR for Indian Languages using Common
Label Set
- Title(参考訳): guy:共通ラベルセットを用いたインド語用デュアルデコーダ多言語asr
- Authors: Arunkumar A, Mudit Batra, Umesh S
- Abstract要約: Common Label Set (CLS) は、共通ラベルに似た音を持つ様々な言語のグラフエムをマッピングする。
インドの言語はほとんどが音声言語であるため、ネイティブスクリプトからCLSに変換するための音訳を構築するのは簡単である。
本稿では,多言語システム構築のためのMultilingual-Decoder-Decoderという新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a multilingual country like India, multilingual Automatic Speech
Recognition (ASR) systems have much scope. Multilingual ASR systems exhibit
many advantages like scalability, maintainability, and improved performance
over the monolingual ASR systems. However, building multilingual systems for
Indian languages is challenging since different languages use different scripts
for writing. On the other hand, Indian languages share a lot of common sounds.
Common Label Set (CLS) exploits this idea and maps graphemes of various
languages with similar sounds to common labels. Since Indian languages are
mostly phonetic, building a parser to convert from native script to CLS is
easy. In this paper, we explore various approaches to build multilingual ASR
models. We also propose a novel architecture called Encoder-Decoder-Decoder for
building multilingual systems that use both CLS and native script labels. We
also analyzed the effectiveness of CLS-based multilingual systems combined with
machine transliteration.
- Abstract(参考訳): インドのような多言語国では、多言語自動音声認識(ASR)システムは範囲が広い。
多言語ASRシステムは、スケーラビリティ、保守性、単言語ASRシステムに対する性能改善など、多くの利点がある。
しかし、異なる言語が書くために異なるスクリプトを使用するため、インド言語のための多言語システムの構築は困難である。
一方、インドの言語は多くの共通の音を共有している。
Common Label Set (CLS) はこのアイデアを利用して、共通ラベルに似た音で様々な言語のグラフエムをマッピングする。
インドの言語はほとんどが音声言語であるため、ネイティブスクリプトからCLSに変換するパーサーの構築は容易である。
本稿では,多言語ASRモデル構築のための様々なアプローチについて検討する。
また,CLSとネイティブスクリプトラベルを併用した多言語システムを構築するためのEncoder-Decoder-Decoderというアーキテクチャを提案する。
また,CLSに基づく多言語システムと機械翻訳の併用の有効性についても検討した。
関連論文リスト
- The Tag-Team Approach: Leveraging CLS and Language Tagging for Enhancing
Multilingual ASR [0.2676349883103404]
インドのような言語的に多様な国で、多言語自動音声認識システムを構築することは、難しい課題である。
この問題は、これらの言語の多くが音声的に類似しているという事実を活用することで解決できる。
CLSに基づく多言語ASRモデルの性能向上のために,新しいアプローチを探索し,比較した。
論文 参考訳(メタデータ) (2023-05-31T06:09:11Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Dual Script E2E framework for Multilingual and Code-Switching ASR [4.697788649564087]
インド語のための多言語およびコードスイッチングASRシステムを訓練する。
テキスト音声合成の結果に触発されて、私たちは社内ルールベースの共通ラベルセット(CLS)表現を使用する。
Indic ASR Challenge 2021の多言語およびコードスイッチングタスクについて,本研究の結果を示す。
論文 参考訳(メタデータ) (2021-06-02T18:08:27Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Language-agnostic Multilingual Modeling [23.06484126933893]
我々は,言語に依存しない多言語ASRシステムを構築し,多対一のトランスデューサを用いて,すべての言語を1つの書き起こしシステムに変換する。
我々は,ヒンディー語,ベンガル語,タミル語,カナダ語の4つの言語を用いて,言語に依存しない多言語モデルを用いて,単語誤り率(WER)を最大10%削減できることを示す。
論文 参考訳(メタデータ) (2020-04-20T18:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。