論文の概要: AraMix: Recycling, Refiltering, and Deduplicating to Deliver the Largest Arabic Pretraining Corpus
- arxiv url: http://arxiv.org/abs/2512.18834v1
- Date: Sun, 21 Dec 2025 17:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.523242
- Title: AraMix: Recycling, Refiltering, and Deduplicating to Deliver the Largest Arabic Pretraining Corpus
- Title(参考訳): AraMix: アラビア最大のプレトレーニングコーパスを提供するためのリサイクル、リフィルター、ドプリケーション
- Authors: Sultan Alrashed, Francesco Orabona,
- Abstract要約: AraMixは1億7900万の文書に約1億7800億のトークンを含む、アラビア語の非重複化事前訓練コーパスである。
利用可能な7つのアラビアウェブデータセットを組み合わせて、アラビア文字用に特別に設計された品質フィルタリングを適用し、いくつかのデータセットを再フィルタリングし、データセット間の重複処理を実行します。
このアプローチは、これらの独立して収集されたコーパスにまたがるトークンの60%近くが重複しており、新しいスクレーピングの努力が再現されるという冗長性を示している。
- 参考スコア(独自算出の注目度): 12.07613108427549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AraMix, a deduplicated Arabic pretraining corpus containing approximately 178 billion tokens across 179 million documents. Rather than scraping the web again, AraMix demonstrates that substantial value lies in systematically reusing and curating existing pretraining datasets: we combine seven publicly available Arabic web datasets, apply quality filtering designed specifically for Arabic text to re-filter some datasets, and perform cross-dataset deduplication, both MinHash and sentence-level. This approach reveals that nearly 60% of tokens across these independently collected corpora are duplicates, redundancy that any new scraping efforts will reproduce. Our work suggests that for lower resource languages, investment in curation pipelines for existing data yields greater returns than additional web crawls, an approach that allowed us to curate the largest heavily filtered publicly available Arabic pretraining corpus.
- Abstract(参考訳): AraMixは1億7900万件の文書に約1億7800億のトークンが含まれている。
利用可能な7つのアラビアのWebデータセットを組み合わせて、アラビア文字用に設計された品質フィルタリングを適用して、いくつかのデータセットを再フィルタリングし、MinHashと文レベルの両方で、データセット間の重複重複を実行する。
このアプローチは、これらの独立して収集されたコーパスにまたがるトークンの60%近くが重複しており、新しいスクレーピングの努力が再現されるという冗長性を示している。
我々の研究は、リソース言語が低い場合、既存のデータに対するキュレーションパイプラインへの投資は、追加のウェブクローリングよりも大きなリターンをもたらすことを示唆している。
関連論文リスト
- Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora [1.7590081165362783]
我々は、新しいアラビアマルチモーダルデータセットを作成するためにCommon Crawlデータセットを処理するパイプラインWasmを提示する。
テキスト抽出のみに焦点を当てた既存のアラビア語コーパスとは異なり、我々のアプローチはウェブコンテンツの構造的整合性を保っている。
既存の主要なデータセットに対して、データ処理パイプラインの包括的な比較分析を提供します。
論文 参考訳(メタデータ) (2025-11-10T13:10:31Z) - Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.70368742538187]
Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。
Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。
Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
論文 参考訳(メタデータ) (2025-09-17T17:59:21Z) - Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [92.85086256871027]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。
混在するテキストの約82%が、そうでなければ破棄されるであろう、低品質なドキュメントを変換することによるものであることを実証しています。
論文 参考訳(メタデータ) (2025-06-05T07:12:12Z) - Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines [0.8944616102795021]
本研究では,アラビア語の自然言語処理における限界を,効果的なアラビア語逆辞書(RD)システムによって解決する。
幾何学的に減少する層を特徴とするセミエンコーダニューラルネットワークアーキテクチャを用いたトランスフォーマーに基づく新しいアプローチを提案する。
本手法は、包括的なデータセット構築プロセスを導入し、アラビア辞書定義の形式的品質基準を確立する。
論文 参考訳(メタデータ) (2025-04-30T09:56:36Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - XAMPLER: Learning to Retrieve Cross-Lingual In-Context Examples [64.79218405438871]
XAMPLER: 言語横断学習の課題に対処するための手法であるクロス言語実例検索法を紹介する。
XAMPLERはまず、多言語小言語モデルであるGlot500に基づいてレトリバーを訓練する。
ターゲット言語の文脈内学習の例として、英語の例を直接検索することができる。
論文 参考訳(メタデータ) (2024-05-08T15:13:33Z) - ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。
また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文 参考訳(メタデータ) (2024-03-26T16:37:54Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。
我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-05-30T07:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。