論文の概要: Building English ASR model with regional language support
- arxiv url: http://arxiv.org/abs/2503.07522v1
- Date: Mon, 10 Mar 2025 16:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 18:54:10.791559
- Title: Building English ASR model with regional language support
- Title(参考訳): 地域言語支援による英語ASRモデルの構築
- Authors: Purvi Agrawal, Vikas Joshi, Bharati Patidar, Ankur Gupta, Rupesh Kumar Mehta,
- Abstract要約: 本稿では,ヒンディー語クエリを効果的に処理できる英語自動音声認識(ASR)システムを提案する。
本稿では,言語間の共有層と言語固有の投影層を自己認識機構で組み合わせた新しい音響モデル(AM)を提案する。
その結果,ヒンディー語と英語のテストセットに対する単語誤り率の69.3%と5.7%の相対的な低下が得られた。
- 参考スコア(独自算出の注目度): 5.329085929355182
- License:
- Abstract: In this paper, we present a novel approach to developing an English Automatic Speech Recognition (ASR) system that can effectively handle Hindi queries, without compromising its performance on English. We propose a novel acoustic model (AM), referred to as SplitHead with Attention (SHA) model, features shared hidden layers across languages and language-specific projection layers combined via a self-attention mechanism. This mechanism estimates the weight for each language based on input data and weighs the corresponding language-specific projection layers accordingly. Additionally, we propose a language modeling approach that interpolates n-gram models from both English and transliterated Hindi text corpora. Our results demonstrate the effectiveness of our approach, with a 69.3% and 5.7% relative reduction in word error rate on Hindi and English test sets respectively when compared to a monolingual English model.
- Abstract(参考訳): 本稿では,ヒンディー語クエリを効果的に処理できる英語自動音声認識(ASR)システムを提案する。
本研究では,SHAモデルと呼ばれる新しい音響モデルを提案し,言語間の共有層と言語固有のプロジェクション層を自己認識機構を介して組み合わせた。
本機構は,入力データに基づいて各言語の重みを推定し,対応する言語固有のプロジェクション層を重み付けする。
さらに,ヒンディー語テキストコーパスからn-gramモデルを補間する言語モデリング手法を提案する。
本研究は,ヒンディー語と英語のテストセットにおける単語誤り率の69.3%と5.7%をモノリンガル英語モデルと比較した場合に比較して,本手法の有効性を示した。
関連論文リスト
- Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - DistilXLSR: A Light Weight Cross-Lingual Speech Representation Model [16.31307448314024]
蒸留言語間音声表現モデルであるDistilXLSRを提案する。
既存の音声の音素をランダムにシャッフルすることにより、言語情報を減らし、英語データのみを用いて言語間モデルを蒸留する。
本手法は,様々な言語/教師モデルに対して一般化可能であることが証明され,英語事前学習モデルの言語間性能を向上させる可能性がある。
論文 参考訳(メタデータ) (2023-06-02T07:03:06Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Cross-lingual Emotion Detection [6.767035411834297]
我々は英語をアラビア語とスペイン語をターゲット言語とする原語とみなしている。
対象言語データに基づいてトレーニングされたBERTベースのモノリンガルモデルは,それぞれアラビア語とスペイン語の絶対ジャカードスコアを4%上回り,SOTA(State-of-the-art)を5%上回りました。
次に、英語データのみを用いた言語間アプローチを用いることで、アラビア語とスペイン語のBERTモデルの90%以上と80%以上の相対的有効性を達成できることを示す。
論文 参考訳(メタデータ) (2021-06-10T19:52:06Z) - Indic-Transformers: An Analysis of Transformer Language Models for
Indian Languages [0.8155575318208631]
Transformerアーキテクチャに基づく言語モデルは、幅広いNLPタスクにおいて最先端のパフォーマンスを達成した。
しかしながら、このパフォーマンスは通常、英語、フランス語、スペイン語、ドイツ語などの高リソース言語でテストされ、報告される。
一方、インドの言語はそのようなベンチマークでは表現されていない。
論文 参考訳(メタデータ) (2020-11-04T14:43:43Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。