論文の概要: Building Robust and Scalable Multilingual ASR for Indian Languages
- arxiv url: http://arxiv.org/abs/2511.15418v1
- Date: Wed, 19 Nov 2025 13:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.817728
- Title: Building Robust and Scalable Multilingual ASR for Indian Languages
- Title(参考訳): インド言語のためのロバストでスケーラブルな多言語ASRの構築
- Authors: Arjun Gangwar, Kaousheik Jayakumar, S. Umesh,
- Abstract要約: 本稿では,インド工科大学マドラス校のSPRING LabがASRU MADASR 2.0チャレンジのために開発したシステムについて述べる。
これらのシステムは、33の方言にまたがる8つの言語間の発話の言語と方言の予測を改善するために、ASRシステムを適用することに焦点を当てている。
- 参考スコア(独自算出の注目度): 0.5352699766206809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the systems developed by SPRING Lab, Indian Institute of Technology Madras, for the ASRU MADASR 2.0 challenge. The systems developed focuses on adapting ASR systems to improve in predicting the language and dialect of the utterance among 8 languages across 33 dialects. We participated in Track 1 and Track 2, which restricts the use of additional data and develop from-the-scratch multilingual systems. We presented a novel training approach using Multi-Decoder architecture with phonemic Common Label Set (CLS) as intermediate representation. It improved the performance over the baseline (in the CLS space). We also discuss various methods used to retain the gain obtained in the phonemic space while converting them back to the corresponding grapheme representations. Our systems beat the baseline in 3 languages (Track 2) in terms of WER/CER and achieved the highest language ID and dialect ID accuracy among all participating teams (Track 2).
- Abstract(参考訳): 本稿では,インド工科大学マドラス校のSPRING LabがASRU MADASR 2.0チャレンジのために開発したシステムについて述べる。
これらのシステムは、33の方言にまたがる8つの言語間の発話の言語と方言の予測を改善するために、ASRシステムを適用することに焦点を当てている。
我々は、トラック1とトラック2に参加し、追加データの使用を制限し、スクラッチな多言語システムを開発した。
我々は,音素共通ラベルセット(CLS)を中間表現として,マルチデコーダアーキテクチャを用いた新たなトレーニング手法を提案する。
ベースライン(CLS空間)よりも性能が向上した。
また,音韻空間で得られる利得を保持するために用いられる様々な手法についても検討し,対応するグラフ表現に変換する。
WER/CERでは3言語でベースラインを破り(トラック2)、参加チーム中で最も高い言語IDと方言IDの精度を達成した(トラック2)。
関連論文リスト
- Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Dual Script E2E framework for Multilingual and Code-Switching ASR [4.697788649564087]
インド語のための多言語およびコードスイッチングASRシステムを訓練する。
テキスト音声合成の結果に触発されて、私たちは社内ルールベースの共通ラベルセット(CLS)表現を使用する。
Indic ASR Challenge 2021の多言語およびコードスイッチングタスクについて,本研究の結果を示す。
論文 参考訳(メタデータ) (2021-06-02T18:08:27Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Exploiting Spectral Augmentation for Code-Switched Spoken Language
Identification [2.064612766965483]
音声によるLIDを3つのインド語で実行し、それを英語と混合する。
このタスクは、Microsoftの研究チームによって、話し言葉のLIDチャレンジとして組織された。
論文 参考訳(メタデータ) (2020-10-14T14:37:03Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z) - Semi-supervised Development of ASR Systems for Multilingual
Code-switched Speech in Under-resourced Languages [19.569525304938033]
2つのアプローチは、南アフリカの5つの言語で、未ソースでコード変更されたスピーチであると考えられている。
第1は、4つの異なる言語対に対応する4つの別々のバイリンガル自動音声認識器を構成する。
2つ目は、すべての言語を表す単一の、統一された5言語ASRシステムである。
論文 参考訳(メタデータ) (2020-03-06T11:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。