論文の概要: FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language
- arxiv url: http://arxiv.org/abs/2506.20920v1
- Date: Thu, 26 Jun 2025 01:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.929298
- Title: FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language
- Title(参考訳): FineWeb2: すべてをスケールするためのひとつのパイプライン -- 事前トレーニングデータ処理をすべての言語に適用する
- Authors: Guilherme Penedo, Hynek Kydlíček, Vinko Sabolčec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf,
- Abstract要約: 我々は、FineWebをベースにした、新しいトレーニング済みデータセットキュレーションパイプラインを導入する。
我々のパイプラインは、以前のデータセットよりもパフォーマンスの高いモデルを生成する非英語コーパスを作成するために使用できることを示す。
パイプラインを約100のCommon Crawlスナップショットを使用して1000以上の言語に拡張し、新たに20テラバイト(50億ドキュメント)のマルチリンガルデータセットであるFinWeb2を生成しました。
- 参考スコア(独自算出の注目度): 48.79534869177174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training state-of-the-art large language models (LLMs) requires vast amounts of clean and diverse text data. While the open development of large high-quality English pre-training datasets has seen substantial recent progress, training performant multilingual LLMs remains a challenge, in large part due to the inherent difficulty of tailoring filtering and deduplication pipelines to a large number of languages. In this work, we introduce a new pre-training dataset curation pipeline based on FineWeb that can be automatically adapted to support any language. We extensively ablate our pipeline design choices on a set of nine diverse languages, guided by a set of meaningful and informative evaluation tasks that were chosen through a novel selection process based on measurable criteria. Ultimately, we show that our pipeline can be used to create non-English corpora that produce more performant models than prior datasets. We additionally introduce a straightforward and principled approach to rebalance datasets that takes into consideration both duplication count and quality, providing an additional performance uplift. Finally, we scale our pipeline to over 1000 languages using almost 100 Common Crawl snapshots to produce FineWeb2, a new 20 terabyte (5 billion document) multilingual dataset which we release along with our pipeline, training, and evaluation codebases.
- Abstract(参考訳): 最先端の大規模言語モデル(LLM)の事前学習には、大量のクリーンで多様なテキストデータが必要である。
大規模で高品質な英語事前学習データセットのオープンな開発は、近年顕著な進歩を遂げているが、多くの言語にフィルタリングと重複のパイプラインを調整することが本質的に困難であることから、パフォーマンスの高い多言語LLMの訓練は依然として課題である。
本研究では,FinWebをベースとした事前学習型データセットキュレーションパイプラインを導入し,任意の言語をサポートするように自動的に適応する。
評価可能な基準に基づいて、新しい選択プロセスを通じて選択された有意義で有意義な評価タスクのセットによって導かれる、9つの多言語からなるパイプライン設計選択を広範囲に集約する。
最終的に、我々のパイプラインは、以前のデータセットよりもパフォーマンスの高いモデルを生成する非英語コーパスを作成するために使用できることを示す。
さらに、重複数と品質の両方を考慮してデータセットを再バランスする、単純で原則化されたアプローチを導入し、さらなるパフォーマンス向上を提供します。
最後に、パイプラインを約100のCommon Crawlスナップショットを使用して1000以上の言語に拡張して、パイプライン、トレーニング、評価コードベースとともにリリースする20テラバイト(50億ドキュメント)の新たなマルチリンガルデータセットであるFineWeb2を生成します。
関連論文リスト
- Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - Data Processing for the OpenGPT-X Model Family [32.8178473342263]
本稿では,OpenGPT-Xプロジェクトで開発されたデータ準備パイプラインの概要について述べる。
プロジェクトの目的は、オープンで高性能な多言語大言語モデル(LLM)を作ることである。
データ選択と要件定義からモデルトレーニングの最終データセットの準備まで、すべてのデータ処理手順を説明します。
論文 参考訳(メタデータ) (2024-10-11T13:34:24Z) - Pipeline and Dataset Generation for Automated Fact-checking in Almost
Any Language [0.0]
本稿では,公開言語モデルとデータを活用したファクトチェック自動化パイプラインを提案する。
パイプラインは,エビデンス検索とクレームの妥当性評価という,2つの主要なモジュールで構成されている。
チェコ語、英語、ポーランド語、スロバキア語パイプラインのすべてのデータと微調整されたモデルにオープンアクセスを提供しています。
論文 参考訳(メタデータ) (2023-12-15T19:43:41Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。