論文の概要: XLS-R: Self-supervised Cross-lingual Speech Representation Learning at
Scale
- arxiv url: http://arxiv.org/abs/2111.09296v2
- Date: Fri, 19 Nov 2021 01:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 13:47:49.911170
- Title: XLS-R: Self-supervised Cross-lingual Speech Representation Learning at
Scale
- Title(参考訳): XLS-R:大規模言語間音声表現学習
- Authors: Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong
Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan
Pino, Alexei Baevski, Alexis Conneau, Michael Auli
- Abstract要約: XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。
128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
- 参考スコア(独自算出の注目度): 48.0390317915984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents XLS-R, a large-scale model for cross-lingual speech
representation learning based on wav2vec 2.0. We train models with up to 2B
parameters on nearly half a million hours of publicly available speech audio in
128 languages, an order of magnitude more public data than the largest known
prior work. Our evaluation covers a wide range of tasks, domains, data regimes
and languages, both high and low-resource. On the CoVoST-2 speech translation
benchmark, we improve the previous state of the art by an average of 7.4 BLEU
over 21 translation directions into English. For speech recognition, XLS-R
improves over the best known prior work on BABEL, MLS, CommonVoice as well as
VoxPopuli, lowering error rates by 14-34% relative on average. XLS-R also sets
a new state of the art on VoxLingua107 language identification. Moreover, we
show that with sufficient model size, cross-lingual pretraining can outperform
English-only pretraining when translating English speech into other languages,
a setting which favors monolingual pretraining. We hope XLS-R can help to
improve speech processing tasks for many more languages of the world.
- Abstract(参考訳): 本稿では,wav2vec 2.0に基づく言語間音声表現学習の大規模モデルであるXLS-Rを提案する。
私たちは、128の言語で50万時間近く公開されている音声音声に対して、最大2Bパラメータを持つモデルをトレーニングします。
私たちの評価は、ハイリソースとローリソースの両方で、幅広いタスク、ドメイン、データレジーム、言語をカバーしています。
CoVoST-2音声翻訳ベンチマークでは,21の翻訳方向に対して平均7.4BLEUで先行技術を改善する。
音声認識において、XLS-RはBABEL、MLS、CommonVoice、およびVoxPopuliの既知の先行研究を改善し、平均して14~34%の誤差率を低下させる。
XLS-RはVoxLingua107言語識別の新たな状態も設定している。
さらに, モデルサイズが十分であれば, 英語を他の言語に翻訳する際には, 言語間事前学習が英語のみの事前学習よりも優れることを示す。
我々は、XLS-Rが世界中の多くの言語における音声処理タスクの改善に役立つことを願っている。
関連論文リスト
- XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - DistilXLSR: A Light Weight Cross-Lingual Speech Representation Model [16.31307448314024]
蒸留言語間音声表現モデルであるDistilXLSRを提案する。
既存の音声の音素をランダムにシャッフルすることにより、言語情報を減らし、英語データのみを用いて言語間モデルを蒸留する。
本手法は,様々な言語/教師モデルに対して一般化可能であることが証明され,英語事前学習モデルの言語間性能を向上させる可能性がある。
論文 参考訳(メタデータ) (2023-06-02T07:03:06Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。