Fugu-MT 論文翻訳(概要): Unsupervised ASR via Cross-Lingual Pseudo-Labeling

論文の概要: Unsupervised ASR via Cross-Lingual Pseudo-Labeling

arxiv url: http://arxiv.org/abs/2305.13330v2
Date: Sat, 30 Sep 2023 02:16:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 14:43:12.196900
Title: Unsupervised ASR via Cross-Lingual Pseudo-Labeling
Title（参考訳）: クロスリンガル擬似ラベルによる教師なしasr
Authors: Tatiana Likhomanenko, Loren Lugosch, Ronan Collobert
Abstract要約: 未ペア音声とテキストのみを使用して、$textitunsupervised$自動音声認識システムを訓練することが可能である。文字レベルの音響モデル(AM)を他の言語から使い、新しい言語で$textitunsupervised$ AMをブートストラップできることを示す。例えば、英語AMからスワヒリへの移動は18%のWERを達成する。
参考スコア（独自算出の注目度）: 25.519264820750593
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work has shown that it is possible to train an $\textit{unsupervised}$ automatic speech recognition (ASR) system using only unpaired audio and text. Existing unsupervised ASR methods assume that no labeled data can be used for training. We argue that even if one does not have any labeled audio for a given language, there is $\textit{always}$ labeled data available for other languages. We show that it is possible to use character-level acoustic models (AMs) from other languages to bootstrap an $\textit{unsupervised}$ AM in a new language. Here, "unsupervised" means no labeled audio is available for the $\textit{target}$ language. Our approach is based on two key ingredients: (i) generating pseudo-labels (PLs) of the $\textit{target}$ language using some $\textit{other}$ language AM and (ii) constraining these PLs with a $\textit{target language model}$. Our approach is effective on Common Voice: e.g. transfer of English AM to Swahili achieves 18% WER. It also outperforms character-based wav2vec-U 2.0 by 15% absolute WER on LJSpeech with 800h of labeled German data instead of 60k hours of unlabeled English data.
Abstract（参考訳）: 最近の研究では、非ペアリングオーディオとテキストのみを使用して、$\textit{unsupervised}$ automatic speech recognition (asr)システムをトレーニングできることが示されている。既存の教師なしのASRメソッドは、トレーニングにラベル付きデータを使用できないと仮定する。ある言語にラベル付きオーディオがない場合でも、他の言語で利用可能なラベル付きデータとして$\textit{always}$がある、と我々は主張する。文字レベルの音響モデル(AM)を他の言語から使い、新しい言語で$\textit{unsupervised}$ AMをブートストラップすることができることを示す。は、$\textit{target}$言語でラベル付きオーディオが利用できないことを意味する。私たちのアプローチは2つの重要な要素に基づいている。 i) $\textit{target}$ Language AM と $\textit{other}$ Language AM を使って $\textit{target}$ Language の擬似ラベル (PL) を生成する (ii)$\textit{target language model}$でこれらのPLを制約します。例えば、英語 am から swahili への転送は 18% の wer を達成している。また、文字ベースのwav2vec-u 2.0をljspeechの絶対werで15%上回り、ラベル付きドイツ語データを60k時間ではなく800hで上回っている。

関連論文リスト

Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文参考訳（メタデータ） (2024-06-24T15:58:15Z)
Zero Resource Cross-Lingual Part Of Speech Tagging [0.0]
ゼロリソース設定での音声タグ付けの一部は、ラベル付きトレーニングデータが利用できない場合、低リソース言語にとって効果的なアプローチである。本研究では,日本語とフランス語,ドイツ語,スペイン語による翻訳学習設定を音声タグ付けのためのターゲット言語として評価した。
論文参考訳（メタデータ） (2024-01-11T08:12:47Z)
Visual Speech Recognition for Languages with Limited Labeled Data using Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。言語識別と音声認識の両方が可能なWhisperモデルを用いる。自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-15T16:53:01Z)
Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。 VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文参考訳（メタデータ） (2023-03-07T14:31:55Z)
Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文参考訳（メタデータ） (2023-01-30T00:53:50Z)
Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文参考訳（メタデータ） (2022-11-11T20:21:38Z)
Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。アプローチの有効性を低く検証する。
論文参考訳（メタデータ） (2022-05-09T10:00:03Z)
Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (2021-12-15T18:56:35Z)
Deciphering Speech: a Zero-Resource Approach to Cross-Lingual Transfer in ASR [13.726142328715897]
本稿では、ターゲット言語からの全く転写されていないトレーニングデータを用いて、ASRシステムの言語間訓練を行う方法を提案する。提案手法は,対象言語からの未ペア音声とテキストデータのみを演算する復号アルゴリズムの新たな適用法である。
論文参考訳（メタデータ） (2021-11-12T16:16:46Z)
Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文参考訳（メタデータ） (2021-05-24T04:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。