論文の概要: Maestro-U: Leveraging joint speech-text representation learning for zero
supervised speech ASR
- arxiv url: http://arxiv.org/abs/2210.10027v1
- Date: Tue, 18 Oct 2022 17:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:41:03.982563
- Title: Maestro-U: Leveraging joint speech-text representation learning for zero
supervised speech ASR
- Title(参考訳): Maestro-U:ゼロ教師付き音声ASRにおける共同音声テキスト表現学習の活用
- Authors: Zhehuai Chen, Ankur Bapna, Andrew Rosenberg, Yu Zhang, Bhuvana
Ramabhadran, Pedro Moreno, Nanxin Chen
- Abstract要約: モーダリティマッチングされた共同音声とテキストモデルを用いて、言語によっては教師付き音声を使わずに、膨大な多言語ASRモデルを訓練できることを示す。
Maestro-Uは,グラフの重なりに制限がある場合にも,教師付き音声言語からの知識伝達を促進することができることを示す。
- 参考スコア(独自算出の注目度): 39.59611707268663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training state-of-the-art Automated Speech Recognition (ASR) models typically
requires a substantial amount of transcribed speech. In this work, we
demonstrate that a modality-matched joint speech and text model can be
leveraged to train a massively multilingual ASR model without any supervised
(manually transcribed) speech for some languages. This paper explores the use
of jointly learnt speech and text representations in a massively multilingual,
zero supervised speech, real-world setting to expand the set of languages
covered by ASR with only unlabeled speech and text in the target languages.
Using the FLEURS dataset, we define the task to cover $102$ languages, where
transcribed speech is available in $52$ of these languages and can be used to
improve end-to-end ASR quality on the remaining $50$. First, we show that by
combining speech representations with byte-level text representations and use
of language embeddings, we can dramatically reduce the Character Error Rate
(CER) on languages with no supervised speech from 64.8\% to 30.8\%, a relative
reduction of 53\%. Second, using a subset of South Asian languages we show that
Maestro-U can promote knowledge transfer from languages with supervised speech
even when there is limited to no graphemic overlap. Overall, Maestro-U closes
the gap to oracle performance by 68.5\% relative and reduces the CER of 19
languages below 15\%.
- Abstract(参考訳): asr(state-of-the-art automated speech recognition)モデルの訓練は通常、かなりの量の書き起こし音声を必要とする。
本研究では、モーダルマッチングされた共同音声とテキストモデルを用いて、教師付き(手書きの)音声を使わずに大規模な多言語ASRモデルを訓練できることを実証する。
本稿では,多言語,ゼロ教師付き言語,実世界設定における共同学習音声とテキスト表現の利用について検討し,対象言語における未ラベル言語とテキストのみを用いて,ASRがカバーする言語群を拡張した。
FLEURSデータセットを使用して、102ドルの言語をカバーするタスクを定義します。
まず,音声表現とバイトレベルのテキスト表現と言語埋め込みを併用することにより,教師付き音声のない言語における文字誤り率(CER)を,相対的に53\%の64.8\%から30.8\%に劇的に削減できることを示す。
第2に,韓国語のサブセットを用いて,文法的重複に制限がある場合でも,教師付き音声言語からの知識伝達を促進できることを示す。
全体として、maestro-u は oracle のパフォーマンスのギャップを 68.5\% 削減し、19 言語の cer を 15\% 以下にする。
関連論文リスト
- ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - MAESTRO: Matched Speech Text Representations through Modality Matching [35.566604806335626]
Maestroは、音声とテキストのモダリティから学習した表現を統一する自己教師型訓練手法である。
単語誤り率(WER)を11%低減したVoxPopuli多言語ASR上でのSOTA(State-of-the-art)を確立する。
我々はCoVoST 2上に新しい最先端のSOTA(State-of-the-art)を確立し、21以上の言語で平均2.8BLEUを改善した。
論文 参考訳(メタデータ) (2022-04-07T12:48:16Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。