論文の概要: Applying Wav2vec2.0 to Speech Recognition in Various Low-resource
Languages
- arxiv url: http://arxiv.org/abs/2012.12121v2
- Date: Sun, 17 Jan 2021 16:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:34:41.275946
- Title: Applying Wav2vec2.0 to Speech Recognition in Various Low-resource
Languages
- Title(参考訳): 各種低リソース言語における音声認識へのWav2vec2.0の適用
- Authors: Cheng Yi, Jianzhong Wang, Ning Cheng, Shiyu Zhou, Bo Xu
- Abstract要約: 音声領域では、wav2vec2.0は、その強力な表現能力とLibrispeechコーパス上で超低リソース音声認識の実現性を示す。
しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。
様々な言語の低リソース音声認識タスクを解決するために、事前学習モデルを適用します。
- 参考スコア(独自算出の注目度): 16.001329145018687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are several domains that own corresponding widely used feature
extractors, such as ResNet, BERT, and GPT-x. These models are usually
pre-trained on large amounts of unlabeled data by self-supervision and can be
effectively applied to downstream tasks. In the speech domain, wav2vec2.0
starts to show its powerful representation ability and feasibility of ultra-low
resource speech recognition on the Librispeech corpus, which belongs to the
audiobook domain. However, wav2vec2.0 has not been examined on real spoken
scenarios and languages other than English. To verify its universality over
languages, we apply pre-trained models to solve low-resource speech recognition
tasks in various spoken languages. We achieve more than 20% relative
improvements in six languages compared with previous work. Among these
languages, English achieves a gain of 52.4%. Moreover, using coarse-grained
modeling units, such as subword or character, achieves better results than
fine-grained modeling units, such as phone or letter.
- Abstract(参考訳): ResNet、BERT、GPT-xなど、広く使われている機能抽出器を所有するドメインはいくつかある。
これらのモデルは、通常、自己スーパービジョンによって大量の未ラベルデータに対して事前訓練され、下流タスクに効果的に適用できる。
音声領域において、wav2vec2.0は、オーディオブックドメインに属するLibrispeechコーパス上で、その強力な表現能力と超低リソース音声認識の実現可能性を示す。
しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。
言語に対する普遍性を検証するため,各種音声言語における低リソース音声認識タスクの解法として,事前学習モデルを適用した。
これまでの作業と比較して、6つの言語で20%以上の相対的な改善を実現しています。
これらの言語の中で、英語は52.4%増加した。
さらに、サブワードやキャラクタなどの粗粒度モデリングユニットを使用することで、電話や文字などの細粒度モデリングユニットよりも優れた結果が得られる。
関連論文リスト
- XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Multilingual Zero Resource Speech Recognition Base on Self-Supervise
Pre-Trained Acoustic Models [14.887781621924255]
本稿では,事前学習モデルの使用を単語レベルのゼロリソース音声認識に拡張するための最初の試みである。
IPA音素の書き起こしで事前訓練されたモデルを微調整し、余分なテキストで訓練された言語モデルで復号する。
Wav2vec 2.0とHuBERTモデルの実験により、この手法は一部の言語で単語誤り率を20%以下に抑えることができることが示された。
論文 参考訳(メタデータ) (2022-10-13T12:11:18Z) - Brazilian Portuguese Speech Recognition Using Wav2vec 2.0 [0.26097841018267615]
本研究は,公開音声データのみを用いた公開音声認識システムの開発について述べる。
最終モデルは、単語誤り率11.95%(共通音声データセット)を示す。
これはブラジルポルトガル語の最もオープンな音声認識モデルよりも13%少ない。
論文 参考訳(メタデータ) (2021-07-23T18:54:39Z) - Leveraging neural representations for facilitating access to
untranscribed speech from endangered languages [10.61744395262441]
オーストラリア・アボリジニの7言語とオランダの地方種から選択したデータを用いている。
wav2vec 2.0 Transformerの中間層からの表現は、タスクパフォーマンスに大きな利益をもたらす。
予め訓練された英語モデルを用いて抽出された特徴は、すべての評価言語の検出を改善したが、より良い検出性能は、評価言語の英語との音韻学的類似性と関連していた。
論文 参考訳(メタデータ) (2021-03-26T16:44:08Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Multilingual acoustic word embedding models for processing zero-resource
languages [37.78342106714364]
我々は,複数言語からのラベル付きデータに対して,単一の教師付き埋め込みモデルを訓練する。
次に、見知らぬゼロリソース言語に適用します。
論文 参考訳(メタデータ) (2020-02-06T05:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。