論文の概要: Multilingual Zero Resource Speech Recognition Base on Self-Supervise
Pre-Trained Acoustic Models
- arxiv url: http://arxiv.org/abs/2210.06936v1
- Date: Thu, 13 Oct 2022 12:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 17:20:17.991363
- Title: Multilingual Zero Resource Speech Recognition Base on Self-Supervise
Pre-Trained Acoustic Models
- Title(参考訳): 自己監督型事前学習音響モデルに基づく多言語ゼロリソース音声認識
- Authors: Haoyu Wang, Wei-Qiang Zhang, Hongbin Suo, Yulong Wan
- Abstract要約: 本稿では,事前学習モデルの使用を単語レベルのゼロリソース音声認識に拡張するための最初の試みである。
IPA音素の書き起こしで事前訓練されたモデルを微調整し、余分なテキストで訓練された言語モデルで復号する。
Wav2vec 2.0とHuBERTモデルの実験により、この手法は一部の言語で単語誤り率を20%以下に抑えることができることが示された。
- 参考スコア(独自算出の注目度): 14.887781621924255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labeled audio data is insufficient to build satisfying speech recognition
systems for most of the languages in the world. There have been some
zero-resource methods trying to perform phoneme or word-level speech
recognition without labeled audio data of the target language, but the error
rate of these methods is usually too high to be applied in real-world
scenarios. Recently, the representation ability of self-supervise pre-trained
models has been found to be extremely beneficial in zero-resource phoneme
recognition. As far as we are concerned, this paper is the first attempt to
extend the use of pre-trained models into word-level zero-resource speech
recognition. This is done by fine-tuning the pre-trained models on IPA phoneme
transcriptions and decoding with a language model trained on extra texts.
Experiments on Wav2vec 2.0 and HuBERT models show that this method can achieve
less than 20% word error rate on some languages, and the average error rate on
8 languages is 33.77%.
- Abstract(参考訳): ラベル付き音声データは、世界中のほとんどの言語で満足な音声認識システムを構築するには不十分である。
対象言語の音声データをラベル付けせずに音素や単語レベルの音声認識を行おうとするゼロリソース手法はいくつかあるが、これらの手法の誤り率は通常現実のシナリオに適用するには高すぎる。
近年,自己超越事前学習モデルの表現能力は,ゼロリソース音素認識において極めて有益であることが判明した。
本論文は,事前学習されたモデルを単語レベルのゼロリソース音声認識に拡張する最初の試みである。
これは、IPA音素の書き起こしで事前訓練されたモデルを微調整し、余分なテキストで訓練された言語モデルで復号する。
Wav2vec 2.0とHuBERTモデルの実験では、この手法は一部の言語では単語誤り率を20%以下に抑えることができ、8言語の平均エラー率は33.77%である。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Simple and Effective Zero-shot Cross-lingual Phoneme Recognition [46.76787843369816]
本稿では,複数言語で事前訓練されたwav2vec 2.0モデルを微調整し,未知の言語を転写することで,ゼロショット・クロスリンガル変換学習に関するこれまでの研究を拡張した。
実験によると、この単純な手法はタスク固有のアーキテクチャを導入した以前の作業よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-09-23T22:50:32Z) - Improved Language Identification Through Cross-Lingual Self-Supervised
Learning [37.32193095549614]
我々は、事前訓練されたモデルを用いて、言語識別に関する以前の自己教師型研究を拡張した。
25言語のセットアップ結果から、言語毎にラベル付きデータの10分で、言語横断的に事前訓練されたモデルが93%以上の精度を達成できることが示された。
論文 参考訳(メタデータ) (2021-07-08T19:37:06Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Applying Wav2vec2.0 to Speech Recognition in Various Low-resource
Languages [16.001329145018687]
音声領域では、wav2vec2.0は、その強力な表現能力とLibrispeechコーパス上で超低リソース音声認識の実現性を示す。
しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。
様々な言語の低リソース音声認識タスクを解決するために、事前学習モデルを適用します。
論文 参考訳(メタデータ) (2020-12-22T15:59:44Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z) - Multilingual acoustic word embedding models for processing zero-resource
languages [37.78342106714364]
我々は,複数言語からのラベル付きデータに対して,単一の教師付き埋め込みモデルを訓練する。
次に、見知らぬゼロリソース言語に適用します。
論文 参考訳(メタデータ) (2020-02-06T05:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。