論文の概要: The Tag-Team Approach: Leveraging CLS and Language Tagging for Enhancing
Multilingual ASR
- arxiv url: http://arxiv.org/abs/2305.19584v1
- Date: Wed, 31 May 2023 06:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:19:18.842124
- Title: The Tag-Team Approach: Leveraging CLS and Language Tagging for Enhancing
Multilingual ASR
- Title(参考訳): Tag-Team アプローチ:多言語 ASR 強化のための CLS と言語タグの活用
- Authors: Kaousheik Jayakumar, Vrunda N. Sukhadia, A Arunkumar, S. Umesh
- Abstract要約: インドのような言語的に多様な国で、多言語自動音声認識システムを構築することは、難しい課題である。
この問題は、これらの言語の多くが音声的に類似しているという事実を活用することで解決できる。
CLSに基づく多言語ASRモデルの性能向上のために,新しいアプローチを探索し,比較した。
- 参考スコア(独自算出の注目度): 0.2676349883103404
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Building a multilingual Automated Speech Recognition (ASR) system in a
linguistically diverse country like India can be a challenging task due to the
differences in scripts and the limited availability of speech data. This
problem can be solved by exploiting the fact that many of these languages are
phonetically similar. These languages can be converted into a Common Label Set
(CLS) by mapping similar sounds to common labels. In this paper, new approaches
are explored and compared to improve the performance of CLS based multilingual
ASR model. Specific language information is infused in the ASR model by giving
Language ID or using CLS to Native script converter on top of the CLS
Multilingual model. These methods give a significant improvement in Word Error
Rate (WER) compared to the CLS baseline. These methods are further tried on
out-of-distribution data to check their robustness.
- Abstract(参考訳): インドのような言語的に多様な国において、多言語自動音声認識(asr)システムを構築することは、スクリプトの違いと音声データの可用性の制限のため、難しい課題である。
この問題は、これらの言語の多くが音声的に類似しているという事実を活用することで解決できる。
これらの言語は、類似した音を共通ラベルにマッピングすることで、CLS(Common Label Set)に変換することができる。
本稿では, CLSに基づく多言語ASRモデルの性能向上のために, 新たなアプローチを提案する。
特定の言語情報は、言語IDを与えたり、CLSマルチ言語モデル上でネイティブスクリプトコンバータにCLSを使用したりすることで、ASRモデルに注入される。
これらの手法は、CLSベースラインと比較してワード誤り率(WER)を大幅に改善する。
これらの手法は、分散データのロバスト性をチェックするためにさらに試みられている。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - DuDe: Dual-Decoder Multilingual ASR for Indian Languages using Common
Label Set [0.0]
Common Label Set (CLS) は、共通ラベルに似た音を持つ様々な言語のグラフエムをマッピングする。
インドの言語はほとんどが音声言語であるため、ネイティブスクリプトからCLSに変換するための音訳を構築するのは簡単である。
本稿では,多言語システム構築のためのMultilingual-Decoder-Decoderという新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-30T04:01:26Z) - Learning ASR pathways: A sparse multilingual ASR model [31.147484652643282]
ASR経路は、言語固有のサブネットワーク(パス)を活性化するスパース多言語ASRモデルである。
重なり合うサブネットワークにより、共有パラメータは、共同でマルチリンガルトレーニングをすることで、低リソース言語への知識伝達を可能にする。
提案したASR経路は,高密度モデルと言語に依存しないプルーニングモデルの両方より優れ,低リソース言語の性能向上を実現している。
論文 参考訳(メタデータ) (2022-09-13T05:14:08Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。