論文の概要: Blu-WERP (Web Extraction and Refinement Pipeline): A Scalable Pipeline for Preprocessing Large Language Model Datasets
- arxiv url: http://arxiv.org/abs/2511.18054v1
- Date: Sat, 22 Nov 2025 13:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.603296
- Title: Blu-WERP (Web Extraction and Refinement Pipeline): A Scalable Pipeline for Preprocessing Large Language Model Datasets
- Title(参考訳): Blu-WERP (Web extract and Refinement Pipeline): 大規模言語モデルデータセットの事前処理のためのスケーラブルパイプライン
- Authors: Gowtham, Sai Rupesh, Sanjay Kumar, Saravanan, Venkata Chaithanya,
- Abstract要約: Blu-WERPは、LLMトレーニングのためにCommon Crawl WARCファイルの品質を最適化するために設計された、新しいデータ前処理パイプラインである。
我々は,Blu-WERPが複数のモデルスケールおよび評価ベンチマークにおいて,DCLMを含む確立されたベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 2.953483347379839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality training data is fundamental to large language model (LLM) performance, yet existing preprocessing pipelines often struggle to effectively remove noise and unstructured content from web-scale corpora. This paper presents Blu-WERP, a novel data preprocessing pipeline designed to optimize the quality of Common Crawl WARC files for LLM training. We demonstrate that Blu-WERP significantly outperforms established baselines including DCLM across multiple model scales and evaluation benchmarks. Our pipeline processes CC WARC dumps, implementing advanced filtering and quality assessment mechanisms. We conducted comprehensive evaluations using models with 150M, 400M, 530M, 750M, and 1B parameters, testing against nine standard benchmarks categorized as World Knowledge & Reasoning, Language Understanding, and Commonsense Reasoning. Results show Blu-WERP consistently achieved superior performance across all model scales. At the 1B parameter scale, Relatively Blu-WERP demonstrates a 4.0% and 9.5% aggregate improvement over DCLM and Fineweb respectively, while achieving quality-per-token efficiency gain. Categorical analysis reveals 2.4% improvement in World Knowledge & Reasoning, 6.2% improvement in Language Understanding, and 4.2% improvement in Commonsense Reasoning. These results establish Blu-WERP as a state-of-the-art preprocessing pipeline that substantially improves LLM training data quality and downstream model performance with reduced computational cost. Our findings contribute to the growing body of research on data-centric AI, demonstrating that preprocessing pipeline design significantly impacts LLM capabilities. The Blu-WERP pipeline represents a practical advancement in data quality optimization, offering researchers and practitioners an effective solution for improving LLM training efficiency and model performance.
- Abstract(参考訳): 高品質なトレーニングデータは、大規模言語モデル(LLM)のパフォーマンスに不可欠なものだが、既存の前処理パイプラインは、Webスケールのコーパスからノイズや非構造化コンテンツを効果的に除去するのに苦労することが多い。
本稿では,LLMトレーニングのためのCommon Crawl WARCファイルの品質最適化を目的とした,新しいデータ前処理パイプラインであるBlu-WERPを提案する。
我々は,Blu-WERPが複数のモデルスケールおよび評価ベンチマークにおいて,DCLMを含む確立されたベースラインを著しく上回ることを示す。
パイプラインはCC WARCダンプを処理し、高度なフィルタリングと品質評価機構を実装します。
我々は,150M,400M,530M,750M,1Bパラメータのモデルを用いて総合評価を行い,World Knowledge & Reasoning,Language Understanding,Commonsense Reasoningに分類される9つの標準ベンチマークと比較した。
結果、Blu-WERPは全てのモデルスケールで一貫して優れた性能を示した。
1Bパラメータスケールでは、Relatively Blu-WERPはDCLMとFinewebでそれぞれ4.0%と9.5%のアグリゲーション改善を示し、品質/トーケン効率の向上を実現している。
カテゴリー分析では、世界知識と推論が2.4%改善、言語理解が6.2%改善、コモンセンス推論が4.2%改善している。
これらの結果から,LLMトレーニングデータ品質と下流モデル性能を大幅に向上し,計算コストを低減した最先端の事前処理パイプラインとしてBlu-WERPを確立した。
我々の研究はデータ中心型AIの研究に寄与し、前処理パイプラインの設計がLLMの能力に大きな影響を及ぼすことを示した。
Blu-WERPパイプラインは、データ品質の最適化の実践的な進歩を表しており、研究者や実践者がLLMトレーニング効率とモデル性能を改善する効果的なソリューションを提供する。
関連論文リスト
- Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data [43.539306138403695]
LLMトレーニングにおけるデータの影響を迅速に評価できる効率的な検証戦略を提案する。
本稿では,効率的なデータフィルタリングパイプラインを提案し,フィルタ効率を向上し,実験と推論のコストを削減する。
フィルタリングパイプラインを、広く使われている2つの事前学習コーパス、FinWebと中国のFinWebデータセットに適用することに成功しました。
論文 参考訳(メタデータ) (2025-05-08T17:15:20Z) - A Comprehensive Evaluation of Parameter-Efficient Fine-Tuning on Code Smell Detection [11.9757082688031]
コードの臭いは、ソフトウェアシステムの品質に悪影響を及ぼす、最適でないコーディングプラクティスです。
既存の検出手法は、コードまたは機械学習(ML)とディープラーニング(DL)技術に依存しており、しばしば不満足なパフォーマンスのような制限に直面している。
本研究では,Small (SLMs) とLarge Language Models (LLMs) を用いて, 4種類のコードの臭いを検知するための最先端PEFT法について検討した。
論文 参考訳(メタデータ) (2024-12-18T12:48:36Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [57.34255010956452]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,より多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Abstract2Appendix: Academic Reviews Enhance LLM Long-Context Capabilities [6.0211447492146]
大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示しているが、長文読み出しの処理能力は依然として困難である。
本研究では, 高品質な学術的査読データを微調整LDMに活用し, 長期的文脈能力を高める効果について検討した。
論文 参考訳(メタデータ) (2024-11-07T22:57:02Z) - Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Improving Language Models via Plug-and-Play Retrieval Feedback [42.786225163763376]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示す。
彼らはしばしば誤った情報や幻覚的な情報を生成し、現実のシナリオにおける現実的な適用を妨げます。
ReFeedは,プラグイン・アンド・プレイフレームワークにおける自動検索フィードバックを提供することにより,LLMの強化を目的とした新しいパイプラインである。
論文 参考訳(メタデータ) (2023-05-23T12:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。