論文の概要: From Scarcity to Scale: A Release-Level Analysis of the Pashto Common Voice Dataset
- arxiv url: http://arxiv.org/abs/2602.14062v1
- Date: Sun, 15 Feb 2026 09:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.634092
- Title: From Scarcity to Scale: A Release-Level Analysis of the Pashto Common Voice Dataset
- Title(参考訳): ScarcityからScaleへ:Pashto Common Voiceデータセットのリリースレベル分析
- Authors: Jandad Jahani, Mursal Dawodi, Jawid Ahmad Baktash,
- Abstract要約: 6000万人以上の人々が話していたPashtoは、これまで、大規模なオープンライセンスの音声データを欠いていた。
本稿では,Mozilla Common Voice corpus の Pashto コンポーネントのリリースレベル解析について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large, openly licensed speech datasets are essential for building automatic speech recognition (ASR) systems, yet many widely spoken languages remain underrepresented in public resources. Pashto, spoken by more than 60 million people, has historically lacked large-scale openly licensed speech data suitable for modern ASR development. This paper presents a release-level analysis of the Pashto component of the Mozilla Common Voice corpus, focusing on version 24.0 (December 2025) and contextualizing trends across major releases. We document rapid growth from 1.49 recorded hours in mid-2023 to 2,768.7 total hours in 2025, including 975.89 validated hours available for supervised ASR training. Beyond scale, we analyze validation throughput, contributor participation inequality, demographic metadata completeness, and sentence-level concentration in the validated subset. We find that participation is extremely concentrated (Gini = 0.941), age representation is strongly skewed toward young adults, and 41.97\% of clips lack self-reported gender labels, limiting subgroup auditing based on metadata. At the textual level, prompt reuse is moderate: 35.88\% of unique sentences account for 50\% of validated clips, suggesting that structural concentration is driven primarily by uneven contributor activity rather than dominance of a small prompt set. These results provide a quantitative audit of a rapidly scaling low-resource speech corpus and highlight practical priorities for improving dataset maturity, including expanded validation capacity and broader demographic participation.
- Abstract(参考訳): 大規模でオープンな音声認識データセットは、自動音声認識(ASR)システムを構築するのに不可欠であるが、多くの広く話されている言語は、公共のリソースでは不足している。
6000万人以上の人々が話すPashtoは、歴史的に、現代のASR開発に適した大規模なオープンライセンスの音声データを欠いていた。
本稿では,Mozilla Common Voice corpus の Pashto コンポーネントのリリースレベル解析を行い,バージョン 24.0 (2025年12月) とメジャーリリース間のコンテキスト化傾向に着目した。
2023年中頃に記録された1.49時間から2025年には2,768.7時間へと急速に成長した。
スケールを超えて、検証スループット、コントリビュータの参加不平等、人口統計メタデータの完全性、検証されたサブセットにおける文レベル濃度を分析します。
参加は極めて集中しており(Gini = 0.941)、年齢表現は若年層に強く偏っており、41.97 %のクリップには自己申告された性別ラベルがなく、メタデータに基づいたサブグループ監査が制限されている。
35.88 %のユニークな文は、検証されたクリップの50 %を占めており、構造的な濃度は、小さなプロンプトセットの優位性よりも、主に不均一なコントリビュータ活動によって引き起こされていることを示唆している。
これらの結果は、迅速にスケールする低リソース音声コーパスを定量的に評価し、データセットの成熟度を改善するための実践的な優先順位を強調します。
関連論文リスト
- WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis [74.31705485094096]
7729のユニークなスピーカーから1244時間のビデオを含む、大規模で高品質で多様なデータセットであるTalkVidを紹介した。
TalkVidは、動作の安定性、美的品質、顔のディテールを厳格にフィルタする、原則付き多段階自動パイプラインを通じてキュレートされる。
TalkVid-Benchは、500クリップの階層化された評価セットで、重要な人口統計学と言語学の軸間で慎重にバランスを取ります。
論文 参考訳(メタデータ) (2025-08-19T08:31:15Z) - SeniorTalk: A Chinese Conversation Dataset with Rich Annotations for Super-Aged Seniors [23.837811649327094]
SeniorTalkは、注意深い注釈付き中国語音声対話データセットである。
このデータセットには、202人の参加者を含む101人の自然な会話から55.53時間のスピーチが含まれている。
話者検証,話者ダイアリゼーション,音声認識,音声編集タスクについて実験を行った。
論文 参考訳(メタデータ) (2025-03-20T11:31:47Z) - Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文 参考訳(メタデータ) (2024-12-19T01:30:19Z) - Towards measuring fairness in speech recognition: Fair-Speech dataset [14.703638352216132]
本論文では,ASRモデルの精度評価を支援するために,新たなデータセットであるFair-Speechを紹介した。
私たちのデータセットには、米国593人による録音された音声で約26.5Kの発声が含まれています。
論文 参考訳(メタデータ) (2024-08-22T20:55:17Z) - Detecting Sexual Content at the Sentence Level in First Millennium Latin Texts [0.0]
我々は,紀元前300年から900年までの約2500の文からなる,性意味論を含む新しいコーパスを紹介した。
我々は,様々な文分類手法と異なる入力埋め込み層を評価し,単純なトークンベースの検索を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-09-25T09:21:25Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。