論文の概要: Arabic ASR on the SADA Large-Scale Arabic Speech Corpus with Transformer-Based Models
- arxiv url: http://arxiv.org/abs/2508.12968v1
- Date: Mon, 18 Aug 2025 14:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.380076
- Title: Arabic ASR on the SADA Large-Scale Arabic Speech Corpus with Transformer-Based Models
- Title(参考訳): 変圧器モデルを用いたSADA大規模アラビア音声コーパス上のアラビアASR
- Authors: Branislav Gerazov, Marcello Politi, Sébastien Bratières,
- Abstract要約: 大規模アラビア音声データセットを用いた音声認識モデルの性能評価を行った。
データセットにはサウジアラビアのテレビ番組の高品質オーディオが68時間含まれている。
4 グラム言語モデルを用いて SADA 上で微調整された MMS 1B モデルは 40.9% の WER と 17.6% の CER を達成する。
- 参考スコア(独自算出の注目度): 3.2669219874106608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the performance of several state-of-the-art automatic speech recognition (ASR) models on a large-scale Arabic speech dataset, the SADA (Saudi Audio Dataset for Arabic), which contains 668 hours of high-quality audio from Saudi television shows. The dataset includes multiple dialects and environments, specifically a noisy subset that makes it particularly challenging for ASR. We evaluate the performance of the models on the SADA test set, and we explore the impact of fine-tuning, language models, as well as noise and denoising on their performance. We find that the best performing model is the MMS 1B model finetuned on SADA with a 4-gram language model that achieves a WER of 40.9\% and a CER of 17.6\% on the SADA test clean set.
- Abstract(参考訳): サウジアラビアのテレビ番組から668時間の高品質音声を含む大規模アラビア語音声データセットであるSADA(Saudi Audio Dataset for Arabic)上で、最先端の自動音声認識(ASR)モデルの性能について検討する。
このデータセットには、複数の方言や環境、特にASRにとって特に困難なノイズの多いサブセットが含まれている。
我々は,SADAテストセット上でのモデルの性能評価を行い,微調整,言語モデル,騒音,騒音がそれらの性能に与える影響について検討する。
SADA テストクリーンセット上で 40.9\% の WER と 17.6\% の CER を達成できる 4-gram 言語モデルで SADA 上で微調整された MMS 1B モデルが最適であることがわかった。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System [16.420831300734697]
VoxArabicaは、アラビア語の方言識別(DID)と自動音声認識(ASR)のためのシステムである。
我々は、アラビアDIDおよびASRタスクの教師付き設定において、HuBERT(DID)、Whisper、XLS-R(ASR)などの広範囲のモデルを訓練する。
MSA、エジプト、モロッコ、および混合データでASRモデルを微調整します。
私たちはこれらのモデルを単一Webインターフェースに統合し、オーディオ記録、ファイルアップロード、モデル選択、誤出力のためのフラグを掲げるオプションなど、さまざまな機能を備えています。
論文 参考訳(メタデータ) (2023-10-17T08:33:02Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - USM-SCD: Multilingual Speaker Change Detection Based on Large Pretrained
Foundation Models [17.87796508561949]
本稿では,話者のターンを同時に検出し,96言語でASRを実行する多言語話者変化検出モデル(USM-SCD)を提案する。
その結果,USM-SCDモデルでは,96言語のデータからなるテストセットに対して,平均話者変化検出F1スコアの75%以上を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T20:46:49Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。