論文の概要: Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters
- arxiv url: http://arxiv.org/abs/2007.03001v2
- Date: Wed, 8 Jul 2020 03:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 03:04:37.969605
- Title: Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters
- Title(参考訳): 大規模多言語ASR:50言語,1モデル,10億パラメータ
- Authors: Vineel Pratap, Anuroop Sriram, Paden Tomasello, Awni Hannun, Vitaliy
Liptchinsky, Gabriel Synnaeve, Ronan Collobert
- Abstract要約: 低音源言語における音声認識(ASR)の性能向上を目的とした,複数言語を対象とした単一音響モデルの訓練について検討した。
入力言語を知らずに1つの関節モデルから多言語学習の3つの変種を、この情報を用いて複数の頭部に比較する。
複数の言語でのASRモデルの多言語学習により、認識性能、特に低リソース言語での認識性能が向上することを示す。
- 参考スコア(独自算出の注目度): 31.705705891482594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study training a single acoustic model for multiple languages with the aim
of improving automatic speech recognition (ASR) performance on low-resource
languages, and over-all simplifying deployment of ASR systems that support
diverse languages. We perform an extensive benchmark on 51 languages, with
varying amount of training data by language(from 100 hours to 1100 hours). We
compare three variants of multilingual training from a single joint model
without knowing the input language, to using this information, to multiple
heads (one per language cluster). We show that multilingual training of ASR
models on several languages can improve recognition performance, in particular,
on low resource languages. We see 20.9%, 23% and 28.8% average WER relative
reduction compared to monolingual baselines on joint model, joint model with
language input and multi head model respectively. To our knowledge, this is the
first work studying multilingual ASR at massive scale, with more than 50
languages and more than 16,000 hours of audio across them.
- Abstract(参考訳): 我々は,低リソース言語における音声認識(ASR)の性能向上と,多様な言語をサポートするASRシステムの展開を単純化することを目的として,複数の言語を対象とした単一音響モデルの訓練を行った。
言語別トレーニングデータ(100時間から1100時間)によって,51言語を対象とした広範なベンチマークを実施した。
入力言語を知らずに単一関節モデルから多言語学習の3つの変種を、この情報を用いて複数の頭部(言語クラスタ毎に1つ)と比較する。
複数の言語におけるASRモデルの多言語学習は、特に低リソース言語における認識性能を向上させることができることを示す。
ジョイントモデルでは20.9%,23%,28.8%,単言語ベースラインでは28.8%,言語入力を伴うジョイントモデルでは20.9%,マルチヘッドモデルでは28.8%であった。
私たちの知る限り、これは50以上の言語と16,000時間以上のオーディオを持つ多言語ASRを大規模に研究する最初の作品です。
関連論文リスト
- Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。
自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文 参考訳(メタデータ) (2022-02-25T09:31:40Z) - Magic dust for cross-lingual adaptation of monolingual wav2vec-2.0 [7.378368959253632]
モノリンガルなwav2vec-2.0は、いくつかの言語でASR学習者として優れていることを示す。
この研究の重要な発見は、適応されたモノリンガルwav2vec-2.0が、トップラインのマルチリンガルXLSRモデルと同様のパフォーマンスを達成することである。
論文 参考訳(メタデータ) (2021-10-07T15:29:22Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。