論文の概要: LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect
- arxiv url: http://arxiv.org/abs/2504.02604v1
- Date: Thu, 03 Apr 2025 14:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:30.719256
- Title: LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect
- Title(参考訳): チュニジア・アラビア方言における音声認識の学習・評価のためのLinTO音声とテキストデータセット
- Authors: Hedi Naouara, Jean-Pierre Lorré, Jérôme Louradour,
- Abstract要約: 本稿では,チュニジア・アラビア方言の音韻的・語彙的特徴を捉えたLinTOデータセットを提案する。
これらのデータセットには、さまざまなソースからのさまざまなテキストと、多様な話者を特徴とする実世界のオーディオサンプルが含まれている。
- 参考スコア(独自算出の注目度): 0.9772968596463595
- License:
- Abstract: Developing Automatic Speech Recognition (ASR) systems for Tunisian Arabic Dialect is challenging due to the dialect's linguistic complexity and the scarcity of annotated speech datasets. To address these challenges, we propose the LinTO audio and textual datasets -- comprehensive resources that capture phonological and lexical features of Tunisian Arabic Dialect. These datasets include a variety of texts from numerous sources and real-world audio samples featuring diverse speakers and code-switching between Tunisian Arabic Dialect and English or French. By providing high-quality audio paired with precise transcriptions, the LinTO audio and textual datasets aim to provide qualitative material to build and benchmark ASR systems for the Tunisian Arabic Dialect. Keywords -- Tunisian Arabic Dialect, Speech-to-Text, Low-Resource Languages, Audio Data Augmentation
- Abstract(参考訳): チュニジア・アラビア方言のための自動音声認識(ASR)システムの開発は、方言の言語的複雑さと注釈付き音声データセットの不足により困難である。
これらの課題に対処するために、チュニジア・アラビア方言の音韻的・語彙的特徴を捉える包括的なリソースであるLinTO音声およびテキストデータセットを提案する。
これらのデータセットには、多くの情報源からのさまざまなテキストや、様々な話者とチュニジア・アラビア・ダイアレクトと英語またはフランス語間のコードスイッチを特徴とする実世界のオーディオサンプルが含まれている。
精度の高い書き起こしと組み合わせた高品質なオーディオを提供することにより、LinTOオーディオとテキストデータセットはチュニジア・アラビア方言のためのASRシステムの構築とベンチマークのための定性的な材料を提供することを目指している。
キーワード - チュニジア・アラビア方言、音声からテキストへの変換、低ソース言語、オーディオデータ拡張
関連論文リスト
- Exploiting Dialect Identification in Automatic Dialectal Text Normalization [9.320305816520422]
我々は、方言アラビア語を標準オーソグラフィー(CODA)に標準化することを目指している。
我々はCODAフィケーションのタスクに基づいて,新たに開発されたシーケンス・ツー・シーケンスのモデルをベンチマークした。
方言識別情報を使用することで,すべての方言のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-07-03T11:30:03Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - A New Benchmark for Evaluating Automatic Speech Recognition in the Arabic Call Domain [0.0]
この研究は、アラビア語における電話会話の課題に対処するために、アラビア語音声認識のための包括的なベンチマークを導入する試みである。
我々の研究は、アラビア方言の幅広い範囲を包含するだけでなく、コールベースのコミュニケーションの現実的な条件をエミュレートする堅牢なベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-03-07T07:24:32Z) - Leveraging Data Collection and Unsupervised Learning for Code-switched
Tunisian Arabic Automatic Speech Recognition [4.67385883375784]
本稿では,チュニジア方言に着目した自動音声認識(ASR)課題に焦点を当てた。
まず、テキストデータと音声データを収集し、場合によっては注釈を付ける。
第2に、チュニジアのさまざまなテストセットに最先端をプッシュするために、セルフスーパービジョン、セミスーパービジョン、および数ショットのコードスイッチングアプローチについて検討する。
第3に,従来の綴りの欠如を考慮し,テスト基準のスペルから発生する騒音を避けるために,転写文の人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-20T13:56:27Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - QVoice: Arabic Speech Pronunciation Learning Application [11.913011065023758]
このアプリケーションは、非ネイティブのアラビア語話者が発音スキルを向上させるために設計されている。
QVoiceは、学習者が意味を理解するのを助けるために様々な学習方法を採用している。
QVoiceで紹介される学習の手がかりは、幅広い意味のある情報を含んでいる。
論文 参考訳(メタデータ) (2023-05-09T07:21:46Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Open Source MagicData-RAMC: A Rich Annotated Mandarin
Conversational(RAMC) Speech Dataset [51.75617364782418]
本稿では,MagicData-RAMCと呼ばれる高品質なリッチ・アノテート・マンダリン音声データセットを提案する。
MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。
論文 参考訳(メタデータ) (2022-03-31T07:01:06Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。