論文の概要: Unsupervised Cross-lingual Representation Learning for Speech
Recognition
- arxiv url: http://arxiv.org/abs/2006.13979v2
- Date: Tue, 15 Dec 2020 23:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:40:29.584712
- Title: Unsupervised Cross-lingual Representation Learning for Speech
Recognition
- Title(参考訳): 音声認識のための教師なし言語間表現学習
- Authors: Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed,
Michael Auli
- Abstract要約: XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
- 参考スコア(独自算出の注目度): 63.85924123692923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents XLSR which learns cross-lingual speech representations by
pretraining a single model from the raw waveform of speech in multiple
languages. We build on wav2vec 2.0 which is trained by solving a contrastive
task over masked latent speech representations and jointly learns a
quantization of the latents shared across languages. The resulting model is
fine-tuned on labeled data and experiments show that cross-lingual pretraining
significantly outperforms monolingual pretraining. On the CommonVoice
benchmark, XLSR shows a relative phoneme error rate reduction of 72% compared
to the best known results. On BABEL, our approach improves word error rate by
16% relative compared to a comparable system. Our approach enables a single
multilingual speech recognition model which is competitive to strong individual
models. Analysis shows that the latent discrete speech representations are
shared across languages with increased sharing for related languages. We hope
to catalyze research in low-resource speech understanding by releasing XLSR-53,
a large model pretrained in 53 languages.
- Abstract(参考訳): 本稿では,複数言語における音声の生波形から単一モデルの事前学習を行い,言語間音声表現を学習するxlsrを提案する。
wav2vec 2.0をベースとし,マスク付き潜在音声表現の対比課題を解決し,言語間で共有される潜在話者の量子化を共同で学習する。
結果として得られたモデルはラベル付きデータに基づいて微調整され、実験により言語間前訓練が単言語前訓練を大幅に上回ることが示された。
CommonVoiceベンチマークでは、最もよく知られた結果と比較して、XLSRは相対音素誤り率を72%削減した。
BABELでは,同等のシステムと比較して単語誤り率を16%向上させる。
提案手法は,強い個人モデルと競合する単一の多言語音声認識モデルを実現する。
分析の結果、潜在離散音声表現は言語間で共有され、関連言語への共有が増加することが示された。
我々は、53言語で事前学習された大型モデルであるxlsr-53をリリースし、低リソース音声理解の研究を触媒することを期待している。
関連論文リスト
- A Comparative Analysis of Bilingual and Trilingual Wav2Vec Models for Automatic Speech Recognition in Multilingual Oral History Archives [2.3592914313389257]
我々は,単言語Wav2Vec 2.0モデルと様々な多言語モデルを比較し,音声認識性能の向上を図る。
以上の結果から,単言語音声認識モデルは多言語モデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2024-07-24T11:03:47Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。