論文の概要: Arab Voices: Mapping Standard and Dialectal Arabic Speech Technology
- arxiv url: http://arxiv.org/abs/2601.13319v1
- Date: Mon, 19 Jan 2026 19:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.024876
- Title: Arab Voices: Mapping Standard and Dialectal Arabic Speech Technology
- Title(参考訳): アラビア音声:標準と方言アラビア音声技術
- Authors: Peter Sullivan, AbdelRahim Elmadany, Alcides Alcoba Inciarte, Muhammad Abdul-Mageed,
- Abstract要約: 方言アラビア語(DA)音声データは、ドメインカバレッジ、方言ラベリングの実践、記録条件など多岐にわたる。
我々は,広く使用されているDAコーパスの訓練分割に対して,音質の客観的なプロキシとともに「言語弁証性」の計算分析を行う。
音響条件と、データセット間の方言信号の強度と一貫性の両方において、相当な不均一性を見出した。
- 参考スコア(独自算出の注目度): 25.96097632833693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialectal Arabic (DA) speech data vary widely in domain coverage, dialect labeling practices, and recording conditions, complicating cross-dataset comparison and model evaluation. To characterize this landscape, we conduct a computational analysis of linguistic ``dialectness'' alongside objective proxies of audio quality on the training splits of widely used DA corpora. We find substantial heterogeneity both in acoustic conditions and in the strength and consistency of dialectal signals across datasets, underscoring the need for standardized characterization beyond coarse labels. To reduce fragmentation and support reproducible evaluation, we introduce Arab Voices, a standardized framework for DA ASR. Arab Voices provides unified access to 31 datasets spanning 14 dialects, with harmonized metadata and evaluation utilities. We further benchmark a range of recent ASR systems, establishing strong baselines for modern DA ASR.
- Abstract(参考訳): 方言アラビア語(DA)音声データは、ドメインカバレッジ、方言ラベリングの実践、記録条件において、クロスデータセット比較とモデル評価を複雑化する。
この景観を特徴付けるために、広く使われているDAコーパスの訓練分割における音質の客観的なプロキシとともに、言語的「方言性」の計算分析を行う。
音響条件と、データセット間の方言信号の強度と一貫性の両方においてかなりの不均一性を見出し、粗いラベル以外のキャラクタリゼーションの標準化の必要性を浮き彫りにした。
フラグメンテーションの削減と再現性評価を支援するため,DA ASRの標準化フレームワークであるArab Voicesを導入する。
Arab Voicesは、14の方言にまたがる31のデータセットに統一されたアクセスを提供し、調和したメタデータと評価ユーティリティを提供する。
我々はさらに、最近のASRシステムの範囲をベンチマークし、現代のDA ASRの強力なベースラインを確立する。
関連論文リスト
- Habibi: Laying the Open-Source Foundation of Unified-Dialectal Arabic Speech Synthesis [20.50741854108831]
本稿では,特殊・統一された音声合成モデルであるHabibiを紹介する。
当社のアプローチは、先進的な商用サービスの世代品質を上回ります。
我々は、多言語アラビア語音声合成のための最初の体系的ベンチマークを作成する。
論文 参考訳(メタデータ) (2026-01-20T10:02:11Z) - WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - ARCADE: A City-Scale Corpus for Fine-Grained Arabic Dialect Tagging [4.23980289430769]
我々は、都市レベルの方言の粒度を明示的に設計した最初のアラビア語音声データセットARCADEを提示する。
コーパスは、アラブ世界のストリーミングサービスから収集されたアラビアのラジオ音声で構成されている。
その結果得られたコーパスは、19か国58都市にまたがる6,907のアノテーションと3,790のユニークなオーディオセグメントで構成されている。
論文 参考訳(メタデータ) (2026-01-05T15:32:17Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - A New Benchmark for Evaluating Automatic Speech Recognition in the Arabic Call Domain [0.0]
この研究は、アラビア語における電話会話の課題に対処するために、アラビア語音声認識のための包括的なベンチマークを導入する試みである。
我々の研究は、アラビア方言の幅広い範囲を包含するだけでなく、コールベースのコミュニケーションの現実的な条件をエミュレートする堅牢なベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-03-07T07:24:32Z) - ALDi: Quantifying the Arabic Level of Dialectness of Text [17.37857915257019]
我々は、アラビア語話者が方言のスペクトルを知覚し、文レベルでアラビア方言レベル(ALDi)として機能すると主張している。
AOC-ALDiの詳細な分析を行い、訓練したモデルが他のコーパスの方言のレベルを効果的に識別できることを示す。
論文 参考訳(メタデータ) (2023-10-20T18:07:39Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。