論文の概要: Indonesian Automatic Speech Recognition with XLSR-53
- arxiv url: http://arxiv.org/abs/2308.11589v1
- Date: Sun, 20 Aug 2023 09:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 13:05:22.607763
- Title: Indonesian Automatic Speech Recognition with XLSR-53
- Title(参考訳): XLSR-53を用いたインドネシア語自動音声認識
- Authors: Panji Arisaputra, Amalia Zahra
- Abstract要約: 本研究では,XLSR-53事前学習モデルを用いたインドネシア語自動音声認識(ASR)の開発に焦点を当てた。
このXLSR-53事前学習モデルは、非英語言語におけるトレーニングデータの量を大幅に削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study focuses on the development of Indonesian Automatic Speech
Recognition (ASR) using the XLSR-53 pre-trained model, the XLSR stands for
cross-lingual speech representations. The use of this XLSR-53 pre-trained model
is to significantly reduce the amount of training data in non-English languages
required to achieve a competitive Word Error Rate (WER). The total amount of
data used in this study is 24 hours, 18 minutes, and 1 second: (1) TITML-IDN 14
hours and 31 minutes; (2) Magic Data 3 hours and 33 minutes; and (3) Common
Voice 6 hours, 14 minutes, and 1 second. With a WER of 20%, the model built in
this study can compete with similar models using the Common Voice dataset split
test. WER can be decreased by around 8% using a language model, resulted in WER
from 20% to 12%. Thus, the results of this study have succeeded in perfecting
previous research in contributing to the creation of a better Indonesian ASR
with a smaller amount of data.
- Abstract(参考訳): 本研究では,XLSR-53事前学習モデルを用いたインドネシア語自動音声認識(ASR)の開発に焦点を当てた。
このXLSR-53事前訓練モデルは、競争力のあるワードエラー率(WER)を達成するのに必要な英語以外の言語でのトレーニングデータの量を大幅に削減する。
本研究で使用されるデータ総量は,(1)TITML-IDN 14時間31分,(2)Magic Data 3時間33分,(3)Common Voice 6時間14分1秒である。
20%のWERで、この研究で構築されたモデルは、Common Voiceデータセット分割テストを使用して同様のモデルと競合することができる。
WERは言語モデルを使用して約8%削減でき、結果としてWERは20%から12%に減少する。
このようにして,本研究の結果は,少ないデータ量でより優れたインドネシアのASRの作成に寄与する以前の研究の完成に成功している。
関連論文リスト
- Convoifilter: A case study of doing cocktail party speech recognition [67.2096889032097]
このモデルは、このアプローチにより、ASRの単語誤り率(WER)を80%から26.4%に下げることができる。
我々はオープンに事前学習モデルを共有し、hf.co/nguyenvulebinh/voice-filterのさらなる研究を促進する。
論文 参考訳(メタデータ) (2023-08-22T12:09:30Z) - Performance Comparison of Pre-trained Models for Speech-to-Text in
Turkish: Whisper-Small and Wav2Vec2-XLS-R-300M [0.0]
トルコ語に対して, テキスト合成のための事前学習された2つの多言語モデルについて検討した。
Mozilla Common Voiceバージョン11.0はトルコ語で準備されている。
2つのモデルの音声とテキストのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2023-07-06T21:01:18Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Improving RNN-T ASR Performance with Date-Time and Location Awareness [6.308539010172309]
文脈情報を個別に使用すると、ベースラインに対して最大3.48%の性能が向上することを示す。
特定の領域では、これらの文脈信号は最大11.5%の改善を示すが、他の領域では顕著な劣化はない。
以上の結果から,ASRモデルの訓練に限られたデータを用いると,文脈信号により性能が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-11T05:57:30Z) - Fast Development of ASR in African Languages using Self Supervised
Speech Representation Learning [13.7466513616362]
本稿では,2020年6月のAfrican Master of Machine Intelligence (AMMI)における非公式なコラボレーションの結果について述べる。
モバイルアプリケーションを用いた音声データ収集に関する一連の講義と研究室の後、少数の学生と講師は、Wolof、Ga、Somaliの3つの言語のための自動音声認識(ASR)プロジェクトに取り組んだ。
本稿では,データ収集方法と,少量 (1h) の書き起こし音声を訓練データとして開発したASRシステムについて述べる。
論文 参考訳(メタデータ) (2021-03-16T11:37:03Z) - XLST: Cross-lingual Self-training to Learn Multilingual Representation
for Low Resource Speech Recognition [45.121579065982544]
クロスランガル自己学習(XLST)と呼ばれる弱教師付き多言語表現学習フレームワークを提案する。
XLSTは、多言語非注釈データの表現学習を改善するために、高リソース言語からの少量の注釈付きデータを利用することができる。
XLSTの有効性を評価するため,CommonVoice corpusの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-03-15T08:33:50Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。