論文の概要: Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data
- arxiv url: http://arxiv.org/abs/2505.05427v1
- Date: Thu, 08 May 2025 17:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.977004
- Title: Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data
- Title(参考訳): Ultra-FineWeb:高速LDMトレーニングデータのための効率的なデータフィルタリングと検証
- Authors: Yudong Wang, Zixuan Fu, Jie Cai, Peijun Tang, Hongya Lyu, Yewei Fang, Zhi Zheng, Jie Zhou, Guoyang Zeng, Chaojun Xiao, Xu Han, Zhiyuan Liu,
- Abstract要約: LLMトレーニングにおけるデータの影響を迅速に評価できる効率的な検証戦略を提案する。
本稿では,効率的なデータフィルタリングパイプラインを提案し,フィルタ効率を向上し,実験と推論のコストを削減する。
フィルタリングパイプラインを、広く使われている2つの事前学習コーパス、FinWebと中国のFinWebデータセットに適用することに成功しました。
- 参考スコア(独自算出の注目度): 43.539306138403695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data quality has become a key factor in enhancing model performance with the rapid development of large language models (LLMs). Model-driven data filtering has increasingly become a primary approach for acquiring high-quality data. However, it still faces two main challenges: (1) the lack of an efficient data verification strategy makes it difficult to provide timely feedback on data quality; and (2) the selection of seed data for training classifiers lacks clear criteria and relies heavily on human expertise, introducing a degree of subjectivity. To address the first challenge, we introduce an efficient verification strategy that enables rapid evaluation of the impact of data on LLM training with minimal computational cost. To tackle the second challenge, we build upon the assumption that high-quality seed data is beneficial for LLM training, and by integrating the proposed verification strategy, we optimize the selection of positive and negative samples and propose an efficient data filtering pipeline. This pipeline not only improves filtering efficiency, classifier quality, and robustness, but also significantly reduces experimental and inference costs. In addition, to efficiently filter high-quality data, we employ a lightweight classifier based on fastText, and successfully apply the filtering pipeline to two widely-used pre-training corpora, FineWeb and Chinese FineWeb datasets, resulting in the creation of the higher-quality Ultra-FineWeb dataset. Ultra-FineWeb contains approximately 1 trillion English tokens and 120 billion Chinese tokens. Empirical results demonstrate that the LLMs trained on Ultra-FineWeb exhibit significant performance improvements across multiple benchmark tasks, validating the effectiveness of our pipeline in enhancing both data quality and training efficiency.
- Abstract(参考訳): データ品質は、大規模言語モデル(LLM)の急速な開発により、モデルパフォーマンスを向上させる重要な要素となっている。
モデル駆動型データフィルタリングは、高品質なデータを取得するための主要なアプローチになりつつある。
しかし,1) 効率的なデータ検証戦略の欠如は,データ品質に対するタイムリーなフィードバックの提供を困難にすること,2) 訓練用分類器におけるシードデータの選択は明確な基準を欠き,人間の専門知識に大きく依存すること,そして主観性の度合いを導入すること,の2つの課題に直面している。
最初の課題に対処するために、最小計算コストでLLMトレーニングにおけるデータの影響を迅速に評価できる効率的な検証戦略を導入する。
第2の課題に取り組むために、LLMトレーニングに高品質なシードデータが有用であるという仮定に基づいて、提案した検証戦略を統合することにより、正と負のサンプルの選択を最適化し、効率的なデータフィルタリングパイプラインを提案する。
このパイプラインはフィルタリング効率、分類器の品質、堅牢性を向上するだけでなく、実験と推論のコストを大幅に削減する。
さらに、高品質なデータを効率的にフィルタリングするために、fastTextに基づく軽量な分類器を使用し、広く使われている2つの事前学習コーパス、FineWeb、中国のFineWebデータセットにフィルタリングパイプラインをうまく適用し、高品質なUltra-FineWebデータセットを作成する。
Ultra-FineWebには、約1兆の英語トークンと1200億の中国語トークンが含まれている。
実験の結果、Ultra-FineWebでトレーニングされたLLMは、複数のベンチマークタスク間で大幅なパフォーマンス向上を示し、データ品質とトレーニング効率の両面でパイプラインの有効性が検証された。
関連論文リスト
- FinerWeb-10BT: Refining Web Data with LLM-Based Line-Level Filtering [2.0140381995251713]
本稿では,LLMに基づくラインレベルのフィルタリング手法を導入し,トレーニングデータの品質を向上させる。
我々は、GPT-4o miniを使用して、FineWebから2万のドキュメントサンプルをラインレベルでラベル付けし、低品質の行に対して記述的なラベルを作成できるようにします。
フィルタリングの影響をテストするため、元のデータセットとフィルタリングデータセットの両方でGPT-2モデルをトレーニングする。
論文 参考訳(メタデータ) (2025-01-13T13:26:50Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Data Quality Control in Federated Instruction-tuning of Large Language Models [43.29678396558287]
フェデレートラーニング(Federated Learning)は、大きな言語モデルのプライバシ保護と協調的な命令チューニングを可能にする。
ローカルクライアントには、トレーニング前にノイズや低品質のサンプルをフィルタリングするグローバルな可視性がない。
我々は,動的データ品質制御を備えた新しいフェデレーション・インストラクション・チューニング・フレームワークであるFedDQCを提案する。
論文 参考訳(メタデータ) (2024-10-15T12:14:57Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning [43.10197671420528]
より小さく弱いモデルを使って、より大きくより強いモデルを微調整できるだろうか?
これにより、より小さく、より効率的なモデルを使用して、より大きな言語モデルをトレーニングするために使用される命令データをフィルタリングすることができる。
主にデータフィルタリングを高速化するだけでなく、フィルタリングされたデータ精細のLLMは、標準ベンチマークでさらにパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-02-01T11:57:53Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。