論文の概要: PashtoCorp: A 1.25-Billion-Word Corpus, Evaluation Suite, and Reproducible Pipeline for Low-Resource Language Development
- arxiv url: http://arxiv.org/abs/2603.16354v1
- Date: Tue, 17 Mar 2026 10:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.223693
- Title: PashtoCorp: A 1.25-Billion-Word Corpus, Evaluation Suite, and Reproducible Pipeline for Low-Resource Language Development
- Title(参考訳): PashtoCorp: 低リソース言語開発のための1.25ビリオンワードコーパス,評価スイート,再現可能なパイプライン
- Authors: Hanif Rahman,
- Abstract要約: パシュトコープ (PashtoCorp) は、パシュト語(英語版)の1.25ビリオン語コーパスである。
PashtoCorpは2.81億の文書にまたがる1.25Bワードで、OSCARのPashtoサブセットの40倍、かつての最大の専用Pashtoコーパスの83倍の大きさである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present PashtoCorp, a 1.25-billion-word corpus for Pashto, a language spoken by 60 million people that remains severely underrepresented in NLP. The corpus is assembled from 39 sources spanning seven HuggingFace datasets and 32 purpose-built web scrapers, processed through a reproducible pipeline with Arabic-script tokenization, SHA-256 deduplication, and quality filtering. At 1.25B words across 2.81 million documents, PashtoCorp is 40x larger than the OSCAR Pashto subset and 83x larger than the previously largest dedicated Pashto corpus. Continued MLM pretraining of XLM-R-base on PashtoCorp reduces held-out perplexity by 25.1% (8.08->6.06). On WikiANN Pashto NER, the pretrained model improves entity F1 by 10% relative (19.0%->21.0%) and reduces training variance nearly 7x; the largest gain appears at 50 training sentences (+27%), with PashtoCorp covering 97.9% of WikiANN entity vocabulary. On Belebele Pashto reading comprehension, Gemma-3n achieves 64.6% accuracy, the first published LLM baseline for Pashto on this benchmark. A leave-one-out source ablation shows that Wikipedia (0.7% of documents) is the most critical source for NER: removing it alone reduces entity F1 by 47%. Corpus data, trained model, and code are available at https://huggingface.co/datasets/ihanif/pashto-corpus, https://huggingface.co/ihanif/xlmr-pashto, and https://github.com/ihanif/pashto-corpus.
- Abstract(参考訳): 我々はPashtoCorpについて紹介する。Pashtoは1.25ビリオンの単語コーパスで、この言語は6000万人が話しており、NLPでは非常に不足している。
コーパスは7つのHuggingFaceデータセットと32の目的のWebスクレイパーで構成される39のソースで構成され、アラビア文字のトークン化、SHA-256の重複、品質フィルタリングを備えた再現可能なパイプラインを通じて処理される。
PashtoCorpは2.81億のドキュメントにまたがる1.25Bワードで、OSCARのPashtoサブセットより40倍大きく、これまで最大のPashtoコーパスよりも83倍大きい。
PashtoCorp上でのXLM-R-塩基のMLM前処理は、ホールドアウトパープレキシティを25.1%減少させる(8.08->6.06)。
WikiANN Pashto NERでは、事前訓練されたモデルはエンティティF1を10%改善し(19.0%->21.0%)、トレーニングのばらつきを7倍に減らし、最大の増加は50のトレーニング文(+27%)で、PashtoCorpはWikiANNのエンティティ語彙の97.9%をカバーしている。
Belebele Pashto では Gemma-3n が 64.6% の精度を達成し、このベンチマークで Pashto の LLM ベースラインが公開された。
文書の0.7%がウィキペディアであり、NERにとって最も重要な情報源である。
コーパスデータ、トレーニングされたモデル、コードは、https://huggingface.co/datasets/ihanif/pashto-corpus、https://huggingface.co/ihanif/xlmr-pashto、https://github.com/ihanif/pashto-corpusで入手できる。
関連論文リスト
- Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - BLUFF: Benchmarking the Detection of False and Synthetic Content across 58 Low-Resource Languages [11.893370892009834]
BLUFFは、79言語で偽と合成のコンテンツを検出するためのベンチマークである。
高リソースの "Big-head" (20) と低リソースの "Long-tail" (59) 言語の両方をカバーする。
AXL-CoIは,偽ニュース・実ニュース生成を制御するための新しいマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2026-02-28T12:58:31Z) - Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.70368742538187]
Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。
Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。
Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
論文 参考訳(メタデータ) (2025-09-17T17:59:21Z) - Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文 参考訳(メタデータ) (2024-06-30T21:40:26Z) - Building a Large Japanese Web Corpus for Large Language Models [20.407125127485276]
本研究では,Common Crawlアーカイブからテキストを抽出し,精錬することにより,大規模なWebコーパスを構築する。
約312億文字(約1億7300万ページ)からなる。
コーパスの品質を確認するため,Llama 2 7B, 13B, 70B, Mistral 7B v0.1, Mixtral 8x7BをベースLLMとして継続トレーニングを行った。
論文 参考訳(メタデータ) (2024-04-27T00:02:45Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Does Corpus Quality Really Matter for Low-Resource Languages? [27.315905109092466]
非英語コーパスの大部分は、自動的にフィルタされたCommonCrawlから派生している。
ケーススタディとしてBasqueを採用して、CommonCrawlのフィルタに代わるものとして、カスタマイズされたクローリング(高品質なコンテンツでウェブサイトを手動で識別し、スクラップする)について検討する。
我々の新しいコーパスはEusCrawlと呼ばれ、CC100やmC4のような多言語コーパスのバスク部分に似ている。
論文 参考訳(メタデータ) (2022-03-15T17:40:27Z) - Monolingual and Parallel Corpora for Kangri Low Resource Language [0.0]
本稿では,国連教育科学文化機関(unesco)に登録されているヒマカリ低資源絶滅危惧言語kangri(iso 639-3xnr)のデータセットを提案する。
コーパスは1,81,552のモノリンガルと27,362のヒンディー・カングリ・パラレルコーパスを含む。
論文 参考訳(メタデータ) (2021-03-22T05:52:51Z) - ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context [58.40112382877868]
ContextNet と呼ばれる新しい CNN-RNN-Transducer アーキテクチャを提案する。
ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。
クリーン/ノイズの多いLibriSpeechテストセット上では、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%、LMで1.9%/4.1%、および2.9%/7.0%のワードエラー率(WER)を達成した。
論文 参考訳(メタデータ) (2020-05-07T01:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。