論文の概要: SomaliWeb v1: A Quality-Filtered Somali Web Corpus with a Matched Tokenizer and a Public Language-Identification Benchmark
- arxiv url: http://arxiv.org/abs/2605.18232v1
- Date: Mon, 18 May 2026 11:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.492594
- Title: SomaliWeb v1: A Quality-Filtered Somali Web Corpus with a Matched Tokenizer and a Public Language-Identification Benchmark
- Title(参考訳): SomaliWeb v1: 整合型トケナイザと公開言語識別ベンチマークを備えた品質適合型Somali Web Corpus
- Authors: Khalid Yusuf Dahir,
- Abstract要約: ソマリ語は、2500万人の話者を持つアフリカのホルン族のクシ語族である。
既存のソマリ文字は多言語分布(HPLT v2, CC100, MADLAD-400, OSCAR, mC4)内か、Hugging Faceにアップロードされた小さなソマリ文字のみである。
上流3つのソースから構築された819,322の文書(303Mトークン)からなる高品質なソマリコーパスであるSomaliWeb v1を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Somali is a Cushitic language of the Horn of Africa with ~25 million speakers, yet no documented dedicated Somali pretraining corpus with a companion tokenizer and language-identification benchmark has been publicly released. Existing Somali text appears either inside multilingual distributions (HPLT v2, CC100, MADLAD-400, OSCAR, mC4) or in small, undocumented Somali-only uploads on Hugging Face. We introduce SomaliWeb v1, a quality-filtered Somali corpus of 819,322 documents (~303M tokens) built from three upstream sources (HPLT v2, CC100, Somali Wikipedia) through a six-stage reproducible pipeline. We release (i) the corpus, (ii) a matched BPE-16K tokenizer, and (iii) the first public side-by-side Somali benchmark of three production language identifiers. Our measurements reveal concrete quality defects in existing distributions: HPLT v2's "cleaned" Somali release retains 17.3% byte-exact duplicates, 56.1% of its documents contain fixable mojibake, and 10.7% of its byte-unique documents are near-duplicates at Jaccard tau=0.80. Our BPE-16K tokenizer emits 40.2% fewer tokens than GPT-4's cl100k_base on FLORES-200 Somali devtest as a tokenizer-level measurement; downstream language-model perplexity comparisons are deferred to a follow-up release.
- Abstract(参考訳): Somaliは、約2500万人の話者を持つアフリカのホーンのクシティック言語であるが、コンパニオントークンと言語識別ベンチマークを備えた専用のSomali事前学習コーパスは公開されていない。
既存のソマリ文字は多言語分布(HPLT v2, CC100, MADLAD-400, OSCAR, mC4)内か、Hugging Faceにアップロードされた小さなソマリ文字のみである。
SomaliWeb v1は,HPLT v2,CC100,Somali Wikipediaの3つのアップストリームソース(HPLT v2,CC100,Somali Wikipedia)から構築された819,322のドキュメント(約303Mトークン)を,6段階の再現可能なパイプラインを通じて品質フィルタしたソマリコーパスである。
リリース
(i)コーパス
(ii)一致するBPE-16Kトークン化器及び
(iii)3つの生産言語識別子のSomaliベンチマークの最初の公開サイドバイサイドベンチマーク。
HPLT v2 の "クリーン化" Somali リリースでは17.3% のバイトコードが保持され,56.1% の文書には固定可能なモジベークが含まれ,10.7% の文書が Jaccard tau=0.80 でほぼ重複している。
我々の BPE-16K トークンは、FLORES-200 Somali における GPT-4 の cl100k_base よりも 40.2% 少ないトークンをトークン化器レベル測定として出力する。
関連論文リスト
- The Thiomi Dataset: A Large-Scale Multimodal Corpus for Low-Resource African Languages [0.0]
スワヒリ語、キクユ語、カムバ語、キムル語、ルオ語、マサイ語、キプシギス語、ソマリ語という4つの言語ファミリーにまたがる10のアフリカ諸言語にまたがる大規模なマルチモーダルコーパスを提示する。
データセットには、601,000以上の承認された文レベルのテキストアノテーションと385,000以上のオーディオ記録が含まれている。
本稿では,収集プラットフォーム,品質保証,ベースライン実験について述べるとともに,アフリカ語技術インフラへの影響について論じる。
論文 参考訳(メタデータ) (2026-03-31T04:14:41Z) - SozKZ: Training Efficient Small Language Models for Kazakh from Scratch [0.0]
SozKZは、90億のカザフ文字のトークンをゼロからトレーニングしたLlama-architecture言語モデルのファミリーである。
MC QAの精度は22.8%から30.3%に向上した。
結果として、スクラッチからトレーニングされた小さな専用モデルが、低リソースの言語技術に実行可能なパスを提供することを示す。
論文 参考訳(メタデータ) (2026-03-21T15:23:55Z) - Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - PashtoCorp: A 1.25-Billion-Word Corpus, Evaluation Suite, and Reproducible Pipeline for Low-Resource Language Development [0.0]
パシュトコープ (PashtoCorp) は、パシュト語(英語版)の1.25ビリオン語コーパスである。
PashtoCorpは2.81億の文書にまたがる1.25Bワードで、OSCARのPashtoサブセットの40倍、かつての最大の専用Pashtoコーパスの83倍の大きさである。
論文 参考訳(メタデータ) (2026-03-17T10:36:18Z) - Detection of Somali-written Fake News and Toxic Messages on the Social Media Using Transformer-based Language Models [0.0]
本稿では,ソマリア語におけるこれらのギャップのいくつかを埋めるために,現在進行中の研究成果について述べる。
我々はトランスフォーマーに基づく単言語ソマリ言語モデル(SomBERTa)を開発した。
SomBERTaは、有害コンテンツ、フェイクニュース、ニューストピック分類データセットに基づいて微調整され、評価される。
論文 参考訳(メタデータ) (2025-03-23T15:45:31Z) - mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
マルチモーダル大規模言語モデル(mLLM)は大量のテキストイメージデータに基づいて訓練される。
mOSCARは、ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスである。
163言語、303M文書、200Bトークン、1.15B画像を含む。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [90.3257333861513]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。