論文の概要: Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS
- arxiv url: http://arxiv.org/abs/2603.08125v1
- Date: Mon, 09 Mar 2026 09:04:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.720028
- Title: Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS
- Title(参考訳): Ramsa: ASRとTSのための大規模ソシオリンギストリッチEmiratiアラビア音声コーパス
- Authors: Rania Al-Sabbagh,
- Abstract要約: ラムサ (Ramsa) は、エミラティ・アラビア語の41時間のコーパスで、社会言語学の研究と低リソース言語技術を支援するために設計された。
157人の話者(59人の女性、98人の男性)が参加し、アーバン、ベドウィン、マウンテン/シヒといった下位言語にまたがり、文化遺産、農業と持続可能性、日常生活、職業的軌道、建築などのトピックをカバーしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ramsa is a developing 41-hour speech corpus of Emirati Arabic designed to support sociolinguistic research and low-resource language technologies. It contains recordings from structured interviews with native speakers and episodes from national television shows. The corpus features 157 speakers (59 female, 98 male), spans subdialects such as Urban, Bedouin, and Mountain/Shihhi, and covers topics such as cultural heritage, agriculture and sustainability, daily life, professional trajectories, and architecture. It consists of 91 monologic and 79 dialogic recordings, varying in length and recording conditions. A 10\% subset was used to evaluate commercial and open-source models for automatic speech recognition (ASR) and text-to-speech (TTS) in a zero-shot setting to establish initial baselines. Whisper-large-v3-turbo achieved the best ASR performance, with average word and character error rates of 0.268 and 0.144, respectively. MMS-TTS-Ara reported the best mean word and character rates of 0.285 and 0.081, respectively, for TTS. These baselines are competitive but leave substantial room for improvement. The paper highlights the challenges encountered and provides directions for future work.
- Abstract(参考訳): ラムサ (Ramsa) は、社会言語学研究と低リソース言語技術を支援するために設計された、エミラティ・アラビア語の41時間の音声コーパスである。
ネイティブスピーカーとのインタビューの録音や、全国のテレビ番組のエピソードも収録されている。
コーパスには157人の講演者(59人の女性、98人の男性)がおり、アーバン、ベドウィン、マウンテン/シヒといった下位言語にまたがり、文化遺産、農業と持続可能性、日常生活、専門的な軌道、建築などのトピックをカバーしている。
91のモノロジー記録と79のダイアログ記録で構成され、長さや記録条件が異なる。
10\%のサブセットを使用して、ゼロショット設定で自動音声認識(ASR)とテキスト音声(TTS)の商用およびオープンソースモデルの評価を行い、初期ベースラインを確立する。
Whisper-large-v3-turbo は平均単語誤り率 0.268 と 0.144 の ASR 性能を達成した。
MMS-TTS-Ara は TTS でそれぞれ 0.285 と 0.081 の最高平均語と文字率を報告した。
これらのベースラインは競争力があるが、改善の余地は残されている。
本稿は、直面した課題を強調し、今後の仕事の方向性を提供する。
関連論文リスト
- Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - Doing More with Less: Data Augmentation for Sudanese Dialect Automatic Speech Recognition [0.0]
本稿では,OpenAI Whisperモデルを微調整するためのデータ拡張手法について述べる。
スーダン方言の最初のベンチマークを確立している。
論文 参考訳(メタデータ) (2026-01-11T08:28:31Z) - Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.14451035425229]
大規模自動音声認識システムであるOmnilingual ASRを紹介する。
自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。
ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
論文 参考訳(メタデータ) (2025-11-12T19:48:09Z) - Sagalee: an Open Source Automatic Speech Recognition Dataset for Oromo Language [8.615751906839208]
我々はエチオピアおよび近隣地域で広く話されている言語であるオロモ語のための新しいデータセットを提示する。
データセットはクラウドソーシングイニシアチブを通じて収集され、多様な話者と音声のバリエーションを含んでいる。
実際の音声録音を100時間、書き起こしと組み合わせて行い、クリーンでノイズの多い環境での読み上げ音声をカバーしている。
論文 参考訳(メタデータ) (2025-02-01T12:47:36Z) - Automatic Speech Recognition Advancements for Indigenous Languages of the Americas [0.0]
The Second Americas (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語の自動音声認識システムの訓練タスクを提案した。
対象言語毎の最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65時間を用いて述べる。
私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
論文 参考訳(メタデータ) (2024-04-12T10:12:38Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - OOD-Speech: A Large Bengali Speech Recognition Dataset for
Out-of-Distribution Benchmarking [1.277758355297812]
OOD-Speechはベンガル語自動音声認識(ASR)のための最初のアウト・オブ・ディストリビューション・ベンチマークデータセットである
私たちのトレーニングデータセットは、大規模なオンラインクラウドソーシングキャンペーンを通じて収集され、1177.94時間、南アジアから22,645ドルのベンガル語話者から収集され、キュレートされた。
論文 参考訳(メタデータ) (2023-05-15T18:00:39Z) - IMaSC -- ICFOSS Malayalam Speech Corpus [0.0]
約50時間の音声を含むマラヤラム語テキストと音声コーパスであるIMaSCについて述べる。
8つのスピーカーと合計34,473のテキストオーディオペアを持つIMaSCは、他のすべてのパブリックな代替品よりも大きい。
以上の結果から,我々のモデルでは,従来の研究や公開モデルに比べて自然度が有意に向上し,平均世論スコアは4.50であることがわかった。
論文 参考訳(メタデータ) (2022-11-23T09:21:01Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。