論文の概要: ASR2K: Speech Recognition for Around 2000 Languages without Audio
- arxiv url: http://arxiv.org/abs/2209.02842v1
- Date: Tue, 6 Sep 2022 22:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:26:06.586056
- Title: ASR2K: Speech Recognition for Around 2000 Languages without Audio
- Title(参考訳): ASR2K: 音声のない約2000言語のための音声認識
- Authors: Xinjian Li, Florian Metze, David R Mortensen, Alan W Black, Shinji
Watanabe
- Abstract要約: 対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
- 参考スコア(独自算出の注目度): 100.41158814934802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most recent speech recognition models rely on large supervised datasets,
which are unavailable for many low-resource languages. In this work, we present
a speech recognition pipeline that does not require any audio for the target
language. The only assumption is that we have access to raw text datasets or a
set of n-gram statistics. Our speech pipeline consists of three components:
acoustic, pronunciation, and language models. Unlike the standard pipeline, our
acoustic and pronunciation models use multilingual models without any
supervision. The language model is built using n-gram statistics or the raw
text dataset. We build speech recognition for 1909 languages by combining it
with Crubadan: a large endangered languages n-gram database. Furthermore, we
test our approach on 129 languages across two datasets: Common Voice and CMU
Wilderness dataset. We achieve 50% CER and 74% WER on the Wilderness dataset
with Crubadan statistics only and improve them to 45% CER and 69% WER when
using 10000 raw text utterances.
- Abstract(参考訳): 最近の音声認識モデルは、多くの低リソース言語では利用できない大規模な教師付きデータセットに依存している。
本稿では,対象言語に対して音声を必要としない音声認識パイプラインを提案する。
唯一の前提は、生のテキストデータセットやn-gram統計データにアクセスできることである。
私たちの音声パイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
標準的なパイプラインとは異なり、音響モデルと発音モデルは、監督なしで多言語モデルを使用する。
言語モデルはn-gram統計や生のテキストデータセットを使って構築される。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築する。
さらに、私たちはCommon VoiceとCMU Wildernessデータセットの2つのデータセットで129の言語でアプローチをテストしています。
我々は,clbadanの統計のみを用いて,荒野データセット上で50%のcerと74%のwerを達成し,10,000の生テキスト発話を用いて45%のcerと69%のwerに改善した。
関連論文リスト
- IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS [0.9092013845117769]
IndicVoices-R (IV-R) は、ASRデータセットから派生したインド最大の多言語TSデータセットである。
IV-Rは、LJ、Speech LibriTTS、IndicTTSといったゴールドスタンダードのTSデータセットの品質と一致する。
私たちは、22の公用語すべてを対象とした最初のTSモデルをリリースします。
論文 参考訳(メタデータ) (2024-09-09T06:28:47Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages [20.25236081418051]
Zambezi Voiceはザンビア語のためのオープンソースの多言語音声リソースである。
我々の知る限り、ザンビア語で作成された最初の多言語音声データセットである。
論文 参考訳(メタデータ) (2023-06-07T13:36:37Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Bengali Common Voice Speech Dataset for Automatic Speech Recognition [0.9218853132156671]
ベンガル語は世界で3億人以上の話者を抱える世界有数の言語の一つである。
その人気にもかかわらず、ベンガル音声認識システムの開発に関する研究は、多様なオープンソースデータセットが不足しているために妨げられている。
このデータセットから得られた知見を提示し、今後のバージョンで対処すべき重要な言語的課題について議論する。
論文 参考訳(メタデータ) (2022-06-28T14:52:08Z) - SpeechStew: Simply Mix All Available Speech Recognition Data to Train
One Large Neural Network [45.59907668722702]
本研究では,公開音声認識データセットの組み合わせで学習した音声認識モデルである speechstew を提案する。
結果はAMI-IHMの9.0% WER、Switchboardの4.7% WER、CallHomeの8.3% WER、WSJの1.3%である。
また, speechstew が強力な転送学習表現を学習することを示す。
論文 参考訳(メタデータ) (2021-04-05T20:13:36Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。