論文の概要: Pashto Common Voice: Building the First Open Speech Corpus for a 60-Million-Speaker Low-Resource Language
- arxiv url: http://arxiv.org/abs/2603.27021v1
- Date: Fri, 27 Mar 2026 22:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.740307
- Title: Pashto Common Voice: Building the First Open Speech Corpus for a 60-Million-Speaker Low-Resource Language
- Title(参考訳): Pashto Common Voice: 60ミリの低音源言語のための最初のオープン音声コーパスの構築
- Authors: Hanif Rahman, Shafeeq ur Rehman,
- Abstract要約: Pashto Common Voice corpus - Pashtoの最初の大規模かつオープンにライセンスされた音声リソース。
2022年から2025年にかけて行われたコミュニティの取り組みを通じて、コーパスは1.5時間と5人のコントリビュータから147時間、ユニークなスピーカーは1,483人まで成長した。
話者参加はCV17とCV18の間で約108倍に増加し、VOA Pashtoの放送キャンペーンと一致した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the Pashto Common Voice corpus -- the first large-scale, openly licensed speech resource for Pashto, a language with over 60 million native speakers largely absent from open speech technology. Through a community effort spanning 2022-2025, the corpus grew from 1.5 hours and 5 contributors to 147 total hours and 1,483 unique speakers across ten Mozilla Common Voice releases (CV14-CV23). Speaker participation increased approximately 108-fold between CV17 and CV18, coinciding with a VOA Pashto broadcast campaign. We describe the full methodology: interface localisation, Wikipedia-based sentence extraction with automated filtering, phonemically targeted contributions for the four most frequently dropped Pashto characters, and multi-channel community outreach. MCV23 contains 107,781 clips (60,337 validated; 82.33 validated hours) across 13 content domains. Fine-tuning Whisper Base on the MCV20 yields 13.4% WER on the MCV20 test split, against the published Whisper Base zero-shot WER of 99.0% on Pashto.
- Abstract(参考訳): Pashto Common Voice corpus - Pashtoのための、最初の大規模かつオープンにライセンスされた音声リソース。
2022年から2025年にかけてのコミュニティ活動を通じて、コーパスは1.5時間から5人のコントリビュータ、合計147時間、Mozilla Common Voiceリリース10件(CV14-CV23)で1,483人のユニークなスピーカーへと成長した。
話者参加はCV17とCV18の間で約108倍に増加し、VOA Pashtoの放送キャンペーンと一致した。
インターフェースのローカライゼーション、自動フィルタリングによるウィキペディアベースの文抽出、最も頻繁にドロップされた4つのPashto文字に対する音素的目的のコントリビューション、マルチチャネルコミュニティのアウトリーチなどについて説明する。
MCV23は、13のコンテンツドメインで107,781のクリップ(60,337の検証時間82.33の検証時間)を含んでいる。
MCV20の微調整されたウィスパーベースは、パシュトーで99.0%のウィスパーベースゼロショットWERに対して、MCV20テストスプリットで13.4%のWERを得る。
関連論文リスト
- PashtoCorp: A 1.25-Billion-Word Corpus, Evaluation Suite, and Reproducible Pipeline for Low-Resource Language Development [0.0]
パシュトコープ (PashtoCorp) は、パシュト語(英語版)の1.25ビリオン語コーパスである。
PashtoCorpは2.81億の文書にまたがる1.25Bワードで、OSCARのPashtoサブセットの40倍、かつての最大の専用Pashtoコーパスの83倍の大きさである。
論文 参考訳(メタデータ) (2026-03-17T10:36:18Z) - Quechua Speech Datasets in Common Voice: The Case of Puno Quechua [0.0]
Quechuasのようなアンダーリソース言語は、データとリソース不足に直面している。
本稿では,ケチュア語の共通音声への統合について検討する。
論文 参考訳(メタデータ) (2025-10-13T12:44:17Z) - A Large Dataset of Spontaneous Speech with the Accent Spoken in São Paulo for Automatic Speech Recognition Evaluation [0.8929537856623965]
ブラジルポルトガル語の自発音声コーパスについて紹介する。
本稿では,Wav2Vec2-XLSR-53モデルとDistil-Whisperモデルを用いて,予備的な自動音声認識(ASR)結果について報告する。
私たちの知る限りでは、ポルトガルのASRタスクに捧げられた最初の大規模パウリスターノアクセントによる自然発声コーパスである。
論文 参考訳(メタデータ) (2024-09-10T21:45:06Z) - ÌròyìnSpeech: A multi-purpose Yorùbá Speech Corpus [7.97238074132292]
IroyinSpeechは、高品質で現代のヨルブの音声データの量を増やしたいという願望に影響された新しいコーパスである。
オープン・ライセンスCC-BY-4.0でニュース・クリエイティブ・ライティング・ドメインから約23,000のテキストをキュレートした。
論文 参考訳(メタデータ) (2023-07-29T20:42:50Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - XLS-R: Self-supervised Cross-lingual Speech Representation Learning at
Scale [48.0390317915984]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。
128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-11-17T18:49:42Z) - GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文 参考訳(メタデータ) (2021-06-13T04:09:16Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。