論文の概要: The Tag-Team Approach: Leveraging CLS and Language Tagging for Enhancing
Multilingual ASR
- arxiv url: http://arxiv.org/abs/2305.19584v1
- Date: Wed, 31 May 2023 06:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:19:18.842124
- Title: The Tag-Team Approach: Leveraging CLS and Language Tagging for Enhancing
Multilingual ASR
- Title(参考訳): Tag-Team アプローチ:多言語 ASR 強化のための CLS と言語タグの活用
- Authors: Kaousheik Jayakumar, Vrunda N. Sukhadia, A Arunkumar, S. Umesh
- Abstract要約: インドのような言語的に多様な国で、多言語自動音声認識システムを構築することは、難しい課題である。
この問題は、これらの言語の多くが音声的に類似しているという事実を活用することで解決できる。
CLSに基づく多言語ASRモデルの性能向上のために,新しいアプローチを探索し,比較した。
- 参考スコア(独自算出の注目度): 0.2676349883103404
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Building a multilingual Automated Speech Recognition (ASR) system in a
linguistically diverse country like India can be a challenging task due to the
differences in scripts and the limited availability of speech data. This
problem can be solved by exploiting the fact that many of these languages are
phonetically similar. These languages can be converted into a Common Label Set
(CLS) by mapping similar sounds to common labels. In this paper, new approaches
are explored and compared to improve the performance of CLS based multilingual
ASR model. Specific language information is infused in the ASR model by giving
Language ID or using CLS to Native script converter on top of the CLS
Multilingual model. These methods give a significant improvement in Word Error
Rate (WER) compared to the CLS baseline. These methods are further tried on
out-of-distribution data to check their robustness.
- Abstract(参考訳): インドのような言語的に多様な国において、多言語自動音声認識(asr)システムを構築することは、スクリプトの違いと音声データの可用性の制限のため、難しい課題である。
この問題は、これらの言語の多くが音声的に類似しているという事実を活用することで解決できる。
これらの言語は、類似した音を共通ラベルにマッピングすることで、CLS(Common Label Set)に変換することができる。
本稿では, CLSに基づく多言語ASRモデルの性能向上のために, 新たなアプローチを提案する。
特定の言語情報は、言語IDを与えたり、CLSマルチ言語モデル上でネイティブスクリプトコンバータにCLSを使用したりすることで、ASRモデルに注入される。
これらの手法は、CLSベースラインと比較してワード誤り率(WER)を大幅に改善する。
これらの手法は、分散データのロバスト性をチェックするためにさらに試みられている。
関連論文リスト
- Language Bias in Self-Supervised Learning For Automatic Speech Recognition [15.976590369684464]
自己教師付き学習(SSL)は、データの高価なラベル付けを必要とせずに、大規模なデータセットでトレーニングするためにディープラーニングで使用される。
本稿では,XLS-Rにおける言語特化作業を特定し,様々な言語上での言語特化作業の性能を検証する。
論文 参考訳(メタデータ) (2025-01-31T17:16:45Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - DuDe: Dual-Decoder Multilingual ASR for Indian Languages using Common
Label Set [0.0]
Common Label Set (CLS) は、共通ラベルに似た音を持つ様々な言語のグラフエムをマッピングする。
インドの言語はほとんどが音声言語であるため、ネイティブスクリプトからCLSに変換するための音訳を構築するのは簡単である。
本稿では,多言語システム構築のためのMultilingual-Decoder-Decoderという新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-30T04:01:26Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。