論文の概要: Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models
- arxiv url: http://arxiv.org/abs/2506.04689v2
- Date: Wed, 25 Jun 2025 17:12:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 14:36:56.400613
- Title: Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models
- Title(参考訳): Webのリサイクリング: 言語モデルにおける事前学習データの品質と量を高める方法
- Authors: Thao Nguyen, Yang Li, Olga Golovneva, Luke Zettlemoyer, Sewoong Oh, Ludwig Schmidt, Xian Li,
- Abstract要約: 我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。
高品質な原文と書き直しテキストが混在すると,22のタスクでそれぞれ1.0,1.3,2.5のパーセンテージが向上することを示す。
- 参考スコア(独自算出の注目度): 107.24906866038431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling laws predict that the performance of large language models improves with increasing model size and data size. In practice, pre-training has been relying on massive web crawls, using almost all data sources publicly available on the internet so far. However, this pool of natural data does not grow at the same rate as the compute supply. Furthermore, the availability of high-quality texts is even more limited: data filtering pipelines often remove up to 99% of the initial web scrapes to achieve state-of-the-art. To address the "data wall" of pre-training scaling, our work explores ways to transform and recycle data discarded in existing filtering processes. We propose REWIRE, REcycling the Web with guIded REwrite, a method to enrich low-quality documents so that they could become useful for training. This in turn allows us to increase the representation of synthetic data in the final pre-training set. Experiments at 1B, 3B and 7B scales of the DCLM benchmark show that mixing high-quality raw texts and our rewritten texts lead to 1.0, 1.3 and 2.5 percentage points improvement respectively across 22 diverse tasks, compared to training on only filtered web data. Training on the raw-synthetic data mix is also more effective than having access to 2x web data. Through further analysis, we demonstrate that about 82% of the mixed in texts come from transforming lower-quality documents that would otherwise be discarded. REWIRE also outperforms related approaches of generating synthetic data, including Wikipedia-style paraphrasing, question-answer synthesizing and knowledge extraction. These results suggest that recycling web texts holds the potential for being a simple and effective approach for scaling pre-training data.
- Abstract(参考訳): スケーリング法則は、モデルサイズとデータサイズの増加により、大きな言語モデルの性能が向上すると予想する。
実際には、事前トレーニングは大規模なWebクローリングに依存しており、これまでインターネット上で公開されているほぼすべてのデータソースを使用している。
しかし、この自然データのプールは、計算供給量と同じ速度で成長しない。
さらに、高品質なテキストの可用性はさらに制限されている。データフィルタリングパイプラインは、最先端を達成するために、初期ウェブスクラップの99%を除去することが多い。
トレーニング前のスケーリングの“データ壁”に対処するため、既存のフィルタリングプロセスで捨てられたデータを変換してリサイクルする方法を模索しています。
本稿では,低品質な文書を学習に役立てるために, guIded Rewrite を用いて Web をリサイクルする REWIRE を提案する。
これにより、最終的な事前学習セットにおける合成データの表現を増やすことができる。
DCLMベンチマークの1B, 3B, 7Bスケールの実験から, 高品質な原文と書き直しテキストを混合すると, 22のタスクでそれぞれ1.0, 1.3, 2.5のパーセンテージが向上することがわかった。
生合成データミックスのトレーニングも、2倍のWebデータにアクセスするよりも効果的である。
さらに分析することで、混在するテキストの約82%が、そうでなければ破棄されるであろう低品質な文書の変換によるものであることが示される。
REWIREはまた、ウィキペディアスタイルのパラフレーズ、質問応答合成、知識抽出など、合成データを生成する関連するアプローチよりも優れている。
これらの結果から, ウェブテキストのリサイクルは, 事前学習データのスケーリングにおいて, シンプルかつ効果的な手法である可能性が示唆された。
関連論文リスト
- DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。
我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。
提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文 参考訳(メタデータ) (2024-09-09T17:23:29Z) - From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search [30.88999109835329]
テキストベースの人物検索では、プライバシ保護と手動アノテーションの困難なタスクに対する懸念に対処するため、データ生成が主流となっている。
構築されたデータセット内のデータのサブセットのみが決定的な役割を果たすことを観察する。
我々は、この重要なデータサブセットを識別するためのフィルタリングアルゴリズムと、光微細チューニングのためのWoRA学習戦略を含む新しいフィルタリング-WoRAパラダイムを導入する。
論文 参考訳(メタデータ) (2024-04-16T05:29:14Z) - Rephrasing the Web: A Recipe for Compute and Data-Efficient Language
Modeling [27.975832264345772]
本稿では,Web上の文書をパラフレーズ化するために,既製の命令調整モデルを用いたWeb Rephrase Augmented Pre-training(textbfWRAP$)を提案する。
自然にノイズの多いC4データセットでWRAPを使用することで、プリトレーニングを$sim3x$で高速化する。
同じトレーニング済みの計算予算で、Pileのさまざまなサブセットで平均して10%以上のパープレキシティを改善し、13のタスクでゼロショットの質問応答精度を2%以上改善する。
論文 参考訳(メタデータ) (2024-01-29T18:19:08Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。
これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。
より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (2023-09-08T19:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。