Fugu-MT 論文翻訳(概要): XLS-R Deep Learning Model for Multilingual ASR on Low- Resource Languages: Indonesian, Javanese, and Sundanese

論文の概要: XLS-R Deep Learning Model for Multilingual ASR on Low- Resource Languages: Indonesian, Javanese, and Sundanese

arxiv url: http://arxiv.org/abs/2401.06832v1
Date: Fri, 12 Jan 2024 13:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 21:08:22.907892
Title: XLS-R Deep Learning Model for Multilingual ASR on Low- Resource Languages: Indonesian, Javanese, and Sundanese
Title（参考訳）: 低資源言語における多言語ASRのためのXLS-R深層学習モデル:インドネシア語、ジャワ語、スンダ語
Authors: Panji Arisaputra, Alif Tri Handoyo and Amalia Zahra
Abstract要約: 本研究は,インドネシア語,ジャワ語,スンダ語などの音声言語をテキストに変換する際のASR性能の向上を目的としている。その結果、XLS-R300mモデルは、ジャワ語とサンダーン語のパフォーマンスをわずかに損なうことなく、競合するWord Error Rate (WER)測定を実現していることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This research paper focuses on the development and evaluation of Automatic Speech Recognition (ASR) technology using the XLS-R 300m model. The study aims to improve ASR performance in converting spoken language into written text, specifically for Indonesian, Javanese, and Sundanese languages. The paper discusses the testing procedures, datasets used, and methodology employed in training and evaluating the ASR systems. The results show that the XLS-R 300m model achieves competitive Word Error Rate (WER) measurements, with a slight compromise in performance for Javanese and Sundanese languages. The integration of a 5-gram KenLM language model significantly reduces WER and enhances ASR accuracy. The research contributes to the advancement of ASR technology by addressing linguistic diversity and improving performance across various languages. The findings provide insights into optimizing ASR accuracy and applicability for diverse linguistic contexts.
Abstract（参考訳）: 本稿では,xls-r 300mモデルを用いた自動音声認識(asr)技術の開発と評価を行う。本研究は,インドネシア語,ジャワ語,スンダ語などの音声言語をテキストに変換する際のASR性能の向上を目的としている。本稿では,ASRシステムのトレーニングと評価に使用されるテスト手順,使用するデータセット,方法論について論じる。その結果、XLS-R300mモデルは、ジャワ語とサンダーン語のパフォーマンスをわずかに損なうことなく、競合するWord Error Rate (WER)測定を実現していることがわかった。 5グラムのKenLM言語モデルの統合により、WERが大幅に減少し、ASRの精度が向上する。この研究は、言語多様性に対処し、様々な言語のパフォーマンスを向上させることにより、ASR技術の進歩に寄与する。本研究は,asrの精度と多様な言語文脈に適用可能性の最適化に関する知見を提供する。

関連論文リスト

Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.14451035425229]
大規模自動音声認識システムであるOmnilingual ASRを紹介する。自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。 ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
論文参考訳（メタデータ） (2025-11-12T19:48:09Z)
Linguistically Informed Tokenization Improves ASR for Underresourced Languages [0.0]
オーストラリア原住民言語Yan-nhangu上でwav2vec2 ASRモデルを微調整する。言語的に情報を得た音声トークン化システムは、WERとCERを大幅に改善する。 ASRモデルの出力を手作業で補正することは、音声をスクラッチから手書きするよりもはるかに高速である。
論文参考訳（メタデータ） (2025-10-07T20:54:35Z)
Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。 LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文参考訳（メタデータ） (2025-06-11T07:06:27Z)
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文参考訳（メタデータ） (2025-03-30T18:03:52Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文参考訳（メタデータ） (2024-09-27T03:31:32Z)
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文参考訳（メタデータ） (2024-09-17T08:36:45Z)
SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2024-09-16T16:04:16Z)
Romanization Encoding For Multilingual ASR [17.296868524096986]
我々は,多言語およびコードスイッチング自動音声認識システムの最適化のために,スクリプト重言語に対するロマネライズ符号化を導入する。 Roman2Charモジュールを備えたFastConformer-RNNTフレームワークにおいて,バランスの取れたトークンライザとともにローマン化符号化を採用することにより,語彙や出力次元を大幅に削減する。本手法は,音響モデルと言語モデリングを分離し,システムの柔軟性と適応性を向上する。
論文参考訳（メタデータ） (2024-07-05T09:13:24Z)
Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques [17.166092544686553]
本研究では,3つのよく知られたコーパス上の11種類のモデルから,単語誤り率(WER)の異なるASR文字を用いた音声感情認識のベンチマークを行った。本稿では, ASR 誤り訂正とモダリティゲート融合を統合した ASR 誤り処理フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-12T15:59:25Z)
Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文参考訳（メタデータ） (2024-06-03T15:38:40Z)
Strategies for improving low resource speech to text translation relying on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文参考訳（メタデータ） (2023-05-31T21:58:07Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
Data Augmentation for Low-Resource Quechua ASR Improvement [2.260916274164351]
ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。いわゆる低リソース言語では,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
論文参考訳（メタデータ） (2022-07-14T12:49:15Z)
LeBenchmark: A Reproducible Framework for Assessing Self-Supervised Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。最近の研究では、音声からSSLも調べた。音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文参考訳（メタデータ） (2021-04-23T08:27:09Z)
LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文参考訳（メタデータ） (2020-08-09T08:16:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。