論文の概要: Unsupervised ASR via Cross-Lingual Pseudo-Labeling
- arxiv url: http://arxiv.org/abs/2305.13330v3
- Date: Fri, 16 Feb 2024 16:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 20:54:32.062831
- Title: Unsupervised ASR via Cross-Lingual Pseudo-Labeling
- Title(参考訳): クロスリンガル擬似ラベルによる教師なしasr
- Authors: Tatiana Likhomanenko, Loren Lugosch, Ronan Collobert
- Abstract要約: 未ペア音声とテキストのみを使用して、$textitunsupervised$自動音声認識システムを訓練することが可能である。
文字レベルの音響モデル(AM)を他の言語から使い、新しい言語で$textitunsupervised$ AMをブートストラップできることを示す。
例えば、英語AMからスワヒリへの移動は18%のWERを達成する。
- 参考スコア(独自算出の注目度): 25.519264820750593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that it is possible to train an $\textit{unsupervised}$
automatic speech recognition (ASR) system using only unpaired audio and text.
Existing unsupervised ASR methods assume that no labeled data can be used for
training. We argue that even if one does not have any labeled audio for a given
language, there is $\textit{always}$ labeled data available for other
languages. We show that it is possible to use character-level acoustic models
(AMs) from other languages to bootstrap an $\textit{unsupervised}$ AM in a new
language. Here, "unsupervised" means no labeled audio is available for the
$\textit{target}$ language. Our approach is based on two key ingredients: (i)
generating pseudo-labels (PLs) of the $\textit{target}$ language using some
$\textit{other}$ language AM and (ii) constraining these PLs with a
$\textit{target language model}$. Our approach is effective on Common Voice:
e.g. transfer of English AM to Swahili achieves 18% WER. It also outperforms
character-based wav2vec-U 2.0 by 15% absolute WER on LJSpeech with 800h of
labeled German data instead of 60k hours of unlabeled English data.
- Abstract(参考訳): 最近の研究では、非ペアリングオーディオとテキストのみを使用して、$\textit{unsupervised}$ automatic speech recognition (asr)システムをトレーニングできることが示されている。
既存の教師なしのASRメソッドは、トレーニングにラベル付きデータを使用できないと仮定する。
ある言語にラベル付きオーディオがない場合でも、他の言語で利用可能なラベル付きデータとして$\textit{always}$がある、と我々は主張する。
文字レベルの音響モデル(AM)を他の言語から使い、新しい言語で$\textit{unsupervised}$ AMをブートストラップすることができることを示す。
は、$\textit{target}$言語でラベル付きオーディオが利用できないことを意味する。
私たちのアプローチは2つの重要な要素に基づいている。
i) $\textit{target}$ Language AM と $\textit{other}$ Language AM を使って $\textit{target}$ Language の擬似ラベル (PL) を生成する
(ii)$\textit{target language model}$でこれらのPLを制約します。
例えば、英語 am から swahili への転送は 18% の wer を達成している。
また、文字ベースのwav2vec-u 2.0をljspeechの絶対werで15%上回り、ラベル付きドイツ語データを60k時間ではなく800hで上回っている。
関連論文リスト
- Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。
我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。
アプローチの有効性を低く検証する。
論文 参考訳(メタデータ) (2022-05-09T10:00:03Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。