論文の概要: Brazilian Portuguese Speech Recognition Using Wav2vec 2.0
- arxiv url: http://arxiv.org/abs/2107.11414v1
- Date: Fri, 23 Jul 2021 18:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:12:53.721705
- Title: Brazilian Portuguese Speech Recognition Using Wav2vec 2.0
- Title(参考訳): wav2vec 2.0を用いたポルトガル語音声認識
- Authors: Lucas Rafael Stefanel Gris, Edresson Casanova, Frederico Santos de
Oliveira, Anderson da Silva Soares, Arnaldo Candido Junior
- Abstract要約: 本研究は,公開音声データのみを用いた公開音声認識システムの開発について述べる。
最終モデルは、単語誤り率11.95%(共通音声データセット)を示す。
これはブラジルポルトガル語の最もオープンな音声認識モデルよりも13%少ない。
- 参考スコア(独自算出の注目度): 0.26097841018267615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning techniques have been shown to be efficient in various tasks,
especially in the development of speech recognition systems, that is, systems
that aim to transcribe a sentence in audio in a sequence of words. Despite the
progress in the area, speech recognition can still be considered difficult,
especially for languages lacking available data, as Brazilian Portuguese. In
this sense, this work presents the development of an public Automatic Speech
Recognition system using only open available audio data, from the fine-tuning
of the Wav2vec 2.0 XLSR-53 model pre-trained in many languages over Brazilian
Portuguese data. The final model presents a Word Error Rate of 11.95% (Common
Voice Dataset). This corresponds to 13% less than the best open Automatic
Speech Recognition model for Brazilian Portuguese available according to our
best knowledge, which is a promising result for the language. In general, this
work validates the use of self-supervising learning techniques, in special, the
use of the Wav2vec 2.0 architecture in the development of robust systems, even
for languages having few available data.
- Abstract(参考訳): 深層学習技術は様々なタスクにおいて効率的であることが示されており、特に音声認識システム、すなわち音声の文を一連の単語で書き起こすシステムの開発において有効であることが示されている。
この地域の進歩にもかかわらず、特にブラジルポルトガル語のように利用可能なデータを持たない言語では、音声認識は依然として難しいと考えられている。
本研究は,ブラジルのポルトガル語データを用いた多くの言語で事前訓練されたWav2vec 2.0 XLSR-53モデルの微調整から,オープンな音声データのみを用いた公開音声認識システムの開発について述べる。
最終モデルはワードエラー率11.95%(共通音声データセット)である。
これは、我々の知る限り、ブラジルのポルトガル語における最高のオープン自動音声認識モデルよりも13%少ない。
一般に、この研究は、利用可能なデータが少ない言語であっても、堅牢なシステムの開発において、特にWav2vec 2.0アーキテクチャを使用した自己監督学習技術の使用を検証する。
関連論文リスト
- XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Large vocabulary speech recognition for languages of Africa:
multilingual modeling and self-supervised learning [11.408563104045285]
アフリカで話されている2000以上の言語のうち、ほとんど誰も自動音声認識システムを提供していない。
我々はアフリカ語に対する大語彙音声認識の経路を提供する2つの手法の実験を行った。
論文 参考訳(メタデータ) (2022-08-05T09:54:19Z) - Adaptive multilingual speech recognition with pretrained models [24.01587237432548]
本稿では,2つのモードに対して事前学習した2つのモデルの有効性について検討する。
全体としては、純粋に教師付き学習よりも44%の改善が見られた。
論文 参考訳(メタデータ) (2022-05-24T18:29:07Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Improved Language Identification Through Cross-Lingual Self-Supervised
Learning [37.32193095549614]
我々は、事前訓練されたモデルを用いて、言語識別に関する以前の自己教師型研究を拡張した。
25言語のセットアップ結果から、言語毎にラベル付きデータの10分で、言語横断的に事前訓練されたモデルが93%以上の精度を達成できることが示された。
論文 参考訳(メタデータ) (2021-07-08T19:37:06Z) - Applying Wav2vec2.0 to Speech Recognition in Various Low-resource
Languages [16.001329145018687]
音声領域では、wav2vec2.0は、その強力な表現能力とLibrispeechコーパス上で超低リソース音声認識の実現性を示す。
しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。
様々な言語の低リソース音声認識タスクを解決するために、事前学習モデルを適用します。
論文 参考訳(メタデータ) (2020-12-22T15:59:44Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。