論文の概要: Pseudo-Labeling for Massively Multilingual Speech Recognition
- arxiv url: http://arxiv.org/abs/2111.00161v1
- Date: Sat, 30 Oct 2021 03:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 11:47:27.586807
- Title: Pseudo-Labeling for Massively Multilingual Speech Recognition
- Title(参考訳): 多言語音声認識のための擬似ラベリング
- Authors: Loren Lugosch, Tatiana Likhomanenko, Gabriel Synnaeve, Ronan Collobert
- Abstract要約: 擬似ラベルによる半教師付き学習は、最先端のモノリンガル音声認識システムの基礎となっている。
低リソース言語でもうまく機能する単純な擬似ラベル方式を提案する。
- 参考スコア(独自算出の注目度): 34.295967235026936
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Semi-supervised learning through pseudo-labeling has become a staple of
state-of-the-art monolingual speech recognition systems. In this work, we
extend pseudo-labeling to massively multilingual speech recognition with 60
languages. We propose a simple pseudo-labeling recipe that works well even with
low-resource languages: train a supervised multilingual model, fine-tune it
with semi-supervised learning on a target language, generate pseudo-labels for
that language, and train a final model using pseudo-labels for all languages,
either from scratch or by fine-tuning. Experiments on the labeled Common Voice
and unlabeled VoxPopuli datasets show that our recipe can yield a model with
better performance for many languages that also transfers well to LibriSpeech.
- Abstract(参考訳): 擬似ラベルによる半教師付き学習は、最先端の単言語音声認識システムの主流となっている。
本研究では,60言語を用いた多言語音声認識に擬似ラベルを拡張した。
教師付き多言語モデルの訓練,ターゲット言語における半教師付き学習による微調整,その言語のための擬似ラベルの生成,スクラッチからあるいは微調整によって,すべての言語に対する擬似ラベルを用いた最終モデルの訓練,といった,低リソース言語でもうまく機能するシンプルな擬似ラベルレシピを提案する。
ラベル付き共通音声とラベルなしvoxpopuliデータセットの実験は、我々のレシピが、librispeechによく変換される多くの言語でより良いパフォーマンスのモデルが得られることを示している。
関連論文リスト
- Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - Language-Universal Phonetic Representation in Multilingual Speech
Pretraining for Low-Resource Speech Recognition [28.21805271848413]
我々は、IPA(International Phonetic Alphabet)多言語モデルを用いて、未ラベル音声のためのフレームレベルの擬似ラベルを作成する。
我々はこれらの擬似ラベルを用いて隠れユニットBERT(HuBERT)に基づく事前学習を音声インフォームドで案内する。
当社のアプローチは、時間と言語の多様性の観点から、事前学習データが少なくて、芸術のほとんどの州よりも優れています。
論文 参考訳(メタデータ) (2023-05-19T10:15:11Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Improved acoustic word embeddings for zero-resource languages using
multilingual transfer [37.78342106714364]
我々は、ラベル付きデータに対する複数の良質な言語からの単一の教師付き埋め込みモデルを訓練し、それを目に見えないゼロ・リソース言語に適用する。
本稿では,3つのマルチリンガルリカレントニューラルネットワーク(RNN)モデルについて考察する。全ての訓練言語の連接語彙に基づいて訓練された分類器,複数言語から同一語と異なる単語を識別する訓練されたシームズRNN,単語ペアを再構成する訓練された対応オートエンコーダ(CAE)RNNである。
これらのモデルは、ゼロリソース言語自体で訓練された最先端の教師なしモデルよりも優れており、平均精度が30%以上向上している。
論文 参考訳(メタデータ) (2020-06-02T12:28:34Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z) - Multilingual acoustic word embedding models for processing zero-resource
languages [37.78342106714364]
我々は,複数言語からのラベル付きデータに対して,単一の教師付き埋め込みモデルを訓練する。
次に、見知らぬゼロリソース言語に適用します。
論文 参考訳(メタデータ) (2020-02-06T05:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。