論文の概要: Massively Multilingual ASR on 70 Languages: Tokenization, Architecture,
and Generalization Capabilities
- arxiv url: http://arxiv.org/abs/2211.05756v1
- Date: Thu, 10 Nov 2022 18:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 15:48:32.343231
- Title: Massively Multilingual ASR on 70 Languages: Tokenization, Architecture,
and Generalization Capabilities
- Title(参考訳): 70言語上の多言語ASR:トークン化、アーキテクチャ、一般化能力
- Authors: Andros Tjandra, Nayan Singhal, David Zhang, Ozlem Kalinli, Abdelrahman
Mohamed, Duc Le, Michael L. Seltzer
- Abstract要約: 本稿では70言語における大規模多言語ASRモデルについて検討する。
マルチリンガルASRは, ゼロショットとファインタニングを併用したMLSにおいて, 9.5%と7.5%のWERを達成した。
- 参考スコア(独自算出の注目度): 35.15674061731237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end multilingual ASR has become more appealing because of several
reasons such as simplifying the training and deployment process and positive
performance transfer from high-resource to low-resource languages. However,
scaling up the number of languages, total hours, and number of unique tokens is
not a trivial task. This paper explores large-scale multilingual ASR models on
70 languages. We inspect two architectures: (1) Shared embedding and output and
(2) Multiple embedding and output model. In the shared model experiments, we
show the importance of tokenization strategy across different languages. Later,
we use our optimal tokenization strategy to train multiple embedding and output
model to further improve our result. Our multilingual ASR achieves 13.9%-15.6%
average WER relative improvement compared to monolingual models. We show that
our multilingual ASR generalizes well on an unseen dataset and domain,
achieving 9.5% and 7.5% WER on Multilingual Librispeech (MLS) with zero-shot
and finetuning, respectively.
- Abstract(参考訳): トレーニングとデプロイメントプロセスの簡素化や、高リソース言語から低リソース言語への積極的なパフォーマンス移行といった理由から、エンドツーエンドの多言語ASRはより魅力的になっています。
しかし、言語数、トータル時間、ユニークなトークンの数をスケールアップするのは簡単な作業ではありません。
本稿では70言語における大規模多言語ASRモデルについて検討する。
我々は,(1)共有組込みと出力,(2)複数組込みと出力モデルという2つのアーキテクチャを検証した。
共有モデル実験では,異なる言語間におけるトークン化戦略の重要性を示す。
後に、最適なトークン化戦略を用いて、複数の埋め込みおよび出力モデルをトレーニングし、その結果をさらに改善します。
我々の多言語 ASR は単言語モデルと比較して平均 WER 改善率 13.9%-15.6% を達成する。
多言語asrは未認識のデータセットとドメインでよく一般化し、ゼロショットと微調整の多言語librispeech (mls) 上で9.5%と7.5% werを達成する。
関連論文リスト
- Multilingual De-Duplication Strategies: Applying scalable similarity search with monolingual & multilingual embedding models [0.0]
本稿では,高度NLPツールを用いた多言語テキストデータの重複解消について述べる。
我々は、mpnetと多言語埋め込みモデル(distiluse)を併用し、英語への翻訳を含む2段階の手法の比較を行った。
論文 参考訳(メタデータ) (2024-06-19T16:48:14Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters [31.705705891482594]
低音源言語における音声認識(ASR)の性能向上を目的とした,複数言語を対象とした単一音響モデルの訓練について検討した。
入力言語を知らずに1つの関節モデルから多言語学習の3つの変種を、この情報を用いて複数の頭部に比較する。
複数の言語でのASRモデルの多言語学習により、認識性能、特に低リソース言語での認識性能が向上することを示す。
論文 参考訳(メタデータ) (2020-07-06T18:43:38Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。