論文の概要: Scaling End-to-End Models for Large-Scale Multilingual ASR
- arxiv url: http://arxiv.org/abs/2104.14830v1
- Date: Fri, 30 Apr 2021 08:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 21:19:53.400427
- Title: Scaling End-to-End Models for Large-Scale Multilingual ASR
- Title(参考訳): 大規模多言語ASRにおけるエンドツーエンドモデルのスケーリング
- Authors: Bo Li, Ruoming Pang, Tara N. Sainath, Anmol Gulati, Yu Zhang, James
Qin, Parisa Haghani, W. Ronny Huang, Min Ma
- Abstract要約: 多くの言語ファミリーでASRモデルを構築することは、大きな言語バリエーションと非常にバランスの取れないデータのために、マルチタスク学習の難しい問題です。
言語毎のデータ量は7.7Kから54.7K時間まで様々である。
- 参考スコア(独自算出の注目度): 44.89961662796597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building ASR models across many language families is a challenging multi-task
learning problem due to large language variations and heavily unbalanced data.
Existing work has shown positive transfer from high resource to low resource
languages. However, degradations on high resource languages are commonly
observed due to interference from the heterogeneous multilingual data and
reduction in per-language capacity. We conduct a capacity study on a
15-language task, with the amount of data per language varying from 7.7K to
54.7K hours. We adopt GShard [1] to efficiently scale up to 10B parameters.
Empirically, we find that (1) scaling the number of model parameters is an
effective way to solve the capacity bottleneck - our 500M-param model is
already better than monolingual baselines and scaling it to 1B and 10B brought
further quality gains; (2) larger models are not only more data efficient, but
also more efficient in terms of training cost as measured in TPU days - the
1B-param model reaches the same accuracy at 34% of training time as the
500M-param model; (3) given a fixed capacity budget, adding depth usually works
better than width and large encoders tend to do better than large decoders.
- Abstract(参考訳): 多くの言語ファミリーにまたがってasrモデルを構築することは、大きな言語のバリエーションと非常に不均衡なデータのために、難しいマルチタスク学習問題である。
既存の作業では、高リソースから低リソース言語へのポジティブな移行が示されている。
しかし、ヘテロジニアス多言語データからの干渉と言語単位のキャパシティの低下により、高資源言語の劣化がよく観察される。
言語毎のデータ量は7.7Kから54.7K時間まで様々である。
GShard [1] を用いて 10B パラメータを効率的にスケールアップする。
Empirically, we find that (1) scaling the number of model parameters is an effective way to solve the capacity bottleneck - our 500M-param model is already better than monolingual baselines and scaling it to 1B and 10B brought further quality gains; (2) larger models are not only more data efficient, but also more efficient in terms of training cost as measured in TPU days - the 1B-param model reaches the same accuracy at 34% of training time as the 500M-param model; (3) given a fixed capacity budget, adding depth usually works better than width and large encoders tend to do better than large decoders.
関連論文リスト
- Scaling Laws for Multilingual Language Models [41.6318470003173]
多言語スケーリングの研究における主要な課題は、言語間移動による個々の言語性能の分析が困難であることである。
本稿では,各言語群に対するクロスエントロピー損失が,それぞれのサンプリング比でのみ決定されるという仮説を導入し,検証する。
性能とデータセットサイズ,モデルサイズ,サンプリング比率を関連づける,ゆるい関係を導出する。
論文 参考訳(メタデータ) (2024-10-15T20:29:38Z) - InkubaLM: A small language model for low-resource African languages [9.426968756845389]
InkubaLMは0.4億のパラメータを持つ小さな言語モデルである。
パラメータ数が大幅に大きいモデルに匹敵するパフォーマンスを実現する。
複数の言語にまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-08-30T05:42:31Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Relay Decoding: Concatenating Large Language Models for Machine Translation [21.367605327742027]
我々はRD(Relay Decoding)と呼ばれる革新的なアプローチを提案し、ソースとターゲット言語を個別にサポートする2つの異なる大規模モデルを結合する。
これら2つのモデル間の接続を容易にするための単純なマッピング層を導入し、訓練に限られた並列データを活用することにより、機械翻訳タスクにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-05-05T13:42:25Z) - ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文 参考訳(メタデータ) (2024-02-23T02:21:24Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - Scaling ASR Improves Zero and Few Shot Learning [23.896440724468246]
大規模データセットでもっとも有用なサンプルを見つけるために,トレーニングデータを効率的にスケールするためのデータ選択手法を提案する。
1-10Bパラメータのユニバーサル英語ASRモデルを訓練することにより、音声認識性能の限界を多くの領域に広げる。
脳損傷による障害のある話者に対して、私たちの最高のゼロショットモデルと少数ショットモデルは、それぞれAphasiaBankテストセットで22%と60%の相対的な改善を達成しています。
論文 参考訳(メタデータ) (2021-11-10T21:18:59Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。