論文の概要: XLS-R Deep Learning Model for Multilingual ASR on Low- Resource
Languages: Indonesian, Javanese, and Sundanese
- arxiv url: http://arxiv.org/abs/2401.06832v1
- Date: Fri, 12 Jan 2024 13:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 21:08:22.907892
- Title: XLS-R Deep Learning Model for Multilingual ASR on Low- Resource
Languages: Indonesian, Javanese, and Sundanese
- Title(参考訳): 低資源言語における多言語ASRのためのXLS-R深層学習モデル:インドネシア語、ジャワ語、スンダ語
- Authors: Panji Arisaputra, Alif Tri Handoyo and Amalia Zahra
- Abstract要約: 本研究は,インドネシア語,ジャワ語,スンダ語などの音声言語をテキストに変換する際のASR性能の向上を目的としている。
その結果、XLS-R300mモデルは、ジャワ語とサンダーン語のパフォーマンスをわずかに損なうことなく、競合するWord Error Rate (WER)測定を実現していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This research paper focuses on the development and evaluation of Automatic
Speech Recognition (ASR) technology using the XLS-R 300m model. The study aims
to improve ASR performance in converting spoken language into written text,
specifically for Indonesian, Javanese, and Sundanese languages. The paper
discusses the testing procedures, datasets used, and methodology employed in
training and evaluating the ASR systems. The results show that the XLS-R 300m
model achieves competitive Word Error Rate (WER) measurements, with a slight
compromise in performance for Javanese and Sundanese languages. The integration
of a 5-gram KenLM language model significantly reduces WER and enhances ASR
accuracy. The research contributes to the advancement of ASR technology by
addressing linguistic diversity and improving performance across various
languages. The findings provide insights into optimizing ASR accuracy and
applicability for diverse linguistic contexts.
- Abstract(参考訳): 本稿では,xls-r 300mモデルを用いた自動音声認識(asr)技術の開発と評価を行う。
本研究は,インドネシア語,ジャワ語,スンダ語などの音声言語をテキストに変換する際のASR性能の向上を目的としている。
本稿では,ASRシステムのトレーニングと評価に使用されるテスト手順,使用するデータセット,方法論について論じる。
その結果、XLS-R300mモデルは、ジャワ語とサンダーン語のパフォーマンスをわずかに損なうことなく、競合するWord Error Rate (WER)測定を実現していることがわかった。
5グラムのKenLM言語モデルの統合により、WERが大幅に減少し、ASRの精度が向上する。
この研究は、言語多様性に対処し、様々な言語のパフォーマンスを向上させることにより、ASR技術の進歩に寄与する。
本研究は,asrの精度と多様な言語文脈に適用可能性の最適化に関する知見を提供する。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Romanization Encoding For Multilingual ASR [17.296868524096986]
我々は,多言語およびコードスイッチング自動音声認識システムの最適化のために,スクリプト重言語に対するロマネライズ符号化を導入する。
Roman2Charモジュールを備えたFastConformer-RNNTフレームワークにおいて,バランスの取れたトークンライザとともにローマン化符号化を採用することにより,語彙や出力次元を大幅に削減する。
本手法は,音響モデルと言語モデリングを分離し,システムの柔軟性と適応性を向上する。
論文 参考訳(メタデータ) (2024-07-05T09:13:24Z) - Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques [17.166092544686553]
本研究では,3つのよく知られたコーパス上の11種類のモデルから,単語誤り率(WER)の異なるASR文字を用いた音声感情認識のベンチマークを行った。
本稿では, ASR 誤り訂正とモダリティゲート融合を統合した ASR 誤り処理フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:59:25Z) - Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Data Augmentation for Low-Resource Quechua ASR Improvement [2.260916274164351]
ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。
いわゆる低リソース言語では,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。
本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
論文 参考訳(メタデータ) (2022-07-14T12:49:15Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。