論文の概要: Indonesian Automatic Speech Recognition with XLSR-53
- arxiv url: http://arxiv.org/abs/2308.11589v1
- Date: Sun, 20 Aug 2023 09:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 13:05:22.607763
- Title: Indonesian Automatic Speech Recognition with XLSR-53
- Title(参考訳): XLSR-53を用いたインドネシア語自動音声認識
- Authors: Panji Arisaputra, Amalia Zahra
- Abstract要約: 本研究では,XLSR-53事前学習モデルを用いたインドネシア語自動音声認識(ASR)の開発に焦点を当てた。
このXLSR-53事前学習モデルは、非英語言語におけるトレーニングデータの量を大幅に削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study focuses on the development of Indonesian Automatic Speech
Recognition (ASR) using the XLSR-53 pre-trained model, the XLSR stands for
cross-lingual speech representations. The use of this XLSR-53 pre-trained model
is to significantly reduce the amount of training data in non-English languages
required to achieve a competitive Word Error Rate (WER). The total amount of
data used in this study is 24 hours, 18 minutes, and 1 second: (1) TITML-IDN 14
hours and 31 minutes; (2) Magic Data 3 hours and 33 minutes; and (3) Common
Voice 6 hours, 14 minutes, and 1 second. With a WER of 20%, the model built in
this study can compete with similar models using the Common Voice dataset split
test. WER can be decreased by around 8% using a language model, resulted in WER
from 20% to 12%. Thus, the results of this study have succeeded in perfecting
previous research in contributing to the creation of a better Indonesian ASR
with a smaller amount of data.
- Abstract(参考訳): 本研究では,XLSR-53事前学習モデルを用いたインドネシア語自動音声認識(ASR)の開発に焦点を当てた。
このXLSR-53事前訓練モデルは、競争力のあるワードエラー率(WER)を達成するのに必要な英語以外の言語でのトレーニングデータの量を大幅に削減する。
本研究で使用されるデータ総量は,(1)TITML-IDN 14時間31分,(2)Magic Data 3時間33分,(3)Common Voice 6時間14分1秒である。
20%のWERで、この研究で構築されたモデルは、Common Voiceデータセット分割テストを使用して同様のモデルと競合することができる。
WERは言語モデルを使用して約8%削減でき、結果としてWERは20%から12%に減少する。
このようにして,本研究の結果は,少ないデータ量でより優れたインドネシアのASRの作成に寄与する以前の研究の完成に成功している。
関連論文リスト
- AfriHuBERT: A self-supervised speech representation model for African languages [44.722780475475915]
本稿では,147言語で事前訓練されたSOTAモデルとSSLモデルであるmHuBERT-147の拡張について述べる。
mHuBERT-147は16のアフリカ言語で事前訓練されているが、様々な情報源から収集された6,500時間以上の音声データの事前訓練を通じて39のアフリカ言語をカバーするように拡張した。
論文 参考訳(メタデータ) (2024-09-30T11:28:33Z) - HYBRINFOX at CheckThat! 2024 -- Task 1: Enhancing Language Models with Structured Information for Check-Worthiness Estimation [0.8083061106940517]
本稿では,2024年 - タスク1コンペティションのためのHYBRINFOXチームの実験と結果について要約する。
本稿では,RoBERTaのような言語モデルに三重項による埋め込みを組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T11:33:54Z) - Automatic Speech Recognition Advancements for Indigenous Languages of the Americas [0.0]
The Second Americas (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語の自動音声認識システムの訓練タスクを提案した。
対象言語毎の最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65時間を用いて述べる。
私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
論文 参考訳(メタデータ) (2024-04-12T10:12:38Z) - Convoifilter: A case study of doing cocktail party speech recognition [59.80042864360884]
このモデルは、このアプローチにより、ASRの単語誤り率(WER)を80%から26.4%に下げることができる。
我々はオープンに事前学習モデルを共有し、hf.co/nguyenvulebinh/voice-filterのさらなる研究を促進する。
論文 参考訳(メタデータ) (2023-08-22T12:09:30Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Improving RNN-T ASR Performance with Date-Time and Location Awareness [6.308539010172309]
文脈情報を個別に使用すると、ベースラインに対して最大3.48%の性能が向上することを示す。
特定の領域では、これらの文脈信号は最大11.5%の改善を示すが、他の領域では顕著な劣化はない。
以上の結果から,ASRモデルの訓練に限られたデータを用いると,文脈信号により性能が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-11T05:57:30Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。