論文の概要: RefineX: Learning to Refine Pre-training Data at Scale from Expert-Guided Programs
- arxiv url: http://arxiv.org/abs/2507.03253v2
- Date: Tue, 08 Jul 2025 18:15:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 13:22:10.050889
- Title: RefineX: Learning to Refine Pre-training Data at Scale from Expert-Guided Programs
- Title(参考訳): RefineX: エキスパートガイドプログラムから大規模にトレーニング済みデータを抽出する学習
- Authors: Baolong Bi, Shenghua Liu, Xingzhang Ren, Dayiheng Liu, Junyang Lin, Yiwei Wang, Lingrui Mei, Junfeng Fang, Jiafeng Guo, Xueqi Cheng,
- Abstract要約: RefineXは、プログラムによる編集タスクを通じて、トレーニング済みデータの大規模かつ外科的な洗練を行うための新しいフレームワークである。
RefineXのコアとなる強みは、高品質で専門家が指導するエンドツーエンドの精錬結果を最小限の編集ベースの削除プログラムに蒸留することにある。
RefineXを複数のモデルスケールで事前学習し、生データ、フィルタリングデータ、または代替データでトレーニングされたモデルより一貫して優れています。
- 参考スコア(独自算出の注目度): 76.3459242819381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The foundational capabilities of large language models (LLMs) are deeply influenced by the quality of their pre-training corpora. However, enhancing data quality at scale remains a significant challenge, primarily due to the trade-off between refinement effectiveness and processing efficiency. While rule-based filtering remains the dominant paradigm, it typically operates at the document level and lacks the granularity needed to refine specific content within documents. Inspired by emerging work such as ProX, we propose $\textbf{RefineX}$, a novel framework for large-scale, surgical refinement of pre-training data through programmatic editing tasks. RefineX enables efficient and fine-grained data refinement while reliably preserving the diversity and naturalness of raw text. The core strength of RefineX lies in distilling high-quality, expert-guided end-to-end refinement results into minimal edit-based deletion programs. This high-precision distillation pipeline is used to train an efficient and reliable refine model that can systematically improve every instance in the corpus at scale. We evaluate RefineX across from-scratch pre-training at multiple model scales and find that it consistently outperforms models trained on raw, filtered, or alternatively refined data across diverse downstream tasks. On the 750M model, RefineX yields 2.6%-7.2% average gains on lighteval tasks, and achieves comparable performance using significantly fewer training tokens. Further analysis shows that RefineX reliably enhances text quality with both high efficiency and precision, outperforming prior approaches such as end-to-end generation and Prox-C. These results position RefineX as a scalable, effective, and reliable solution for optimizing pre-training data in modern LLM pipelines.
- Abstract(参考訳): 大規模言語モデル(LLM)の基本能力は,事前学習コーパスの品質に大きく影響されている。
しかし、改善効率と処理効率のトレードオフが主な理由として、大規模データ品質の向上は依然として大きな課題である。
ルールベースのフィルタリングは依然として支配的なパラダイムであるが、典型的にはドキュメントレベルで動作し、文書内の特定のコンテンツを洗練するのに必要な粒度を欠いている。
ProXのような新興の作業に触発されて,プログラムによる編集タスクによる事前学習データの大規模かつ外科的改善のための新しいフレームワークである$\textbf{RefineX}$を提案する。
RefineXは、原文の多様性と自然性を確実に保ちながら、効率的できめ細かなデータ精細化を可能にする。
RefineXのコアとなる強みは、高品質で専門家が指導するエンドツーエンドの精錬結果を最小限の編集ベースの削除プログラムに蒸留することにある。
この高精度蒸留パイプラインは、コーパス内の全てのインスタンスを大規模に体系的に改善できる効率的で信頼性の高い精製モデルを訓練するために使用される。
複数のモデルスケールで、アウトスクラッチ前のトレーニングでRefineXを評価し、さまざまなダウンストリームタスクでトレーニングされたモデル、フィルタされたデータ、あるいは代わりに改良されたデータよりも一貫して優れています。
750Mモデルでは、RefineXは軽量タスクで平均2.6%-7.2%のゲインを獲得し、トレーニングトークンをはるかに少なくして同等のパフォーマンスを達成する。
さらなる分析により、RefineXは高い効率と精度でテキスト品質を確実に向上させ、エンドツーエンド生成やProx-Cといった従来のアプローチよりも優れていることが示された。
これらの結果から、RefineXは現代のLLMパイプラインにおける事前学習データを最適化するためのスケーラブルで効果的で信頼性の高いソリューションとして位置づけられた。
関連論文リスト
- Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - Training Domain Draft Models for Speculative Decoding: Best Practices and Insights [16.68232264939302]
ドメイン固有のターゲットモデルに投機的復号化を適用すると、ドメインシフトによってジェネリックドラフトモデルの受理率が大幅に低下する。
白箱蒸留法と黒箱蒸留法を比較し,各種データアクセシビリティーシナリオにおける有効性を検討した。
合成データによって、ドラフトモデルを効果的に整合させ、過去のユーザクエリのトレーニング性能の80%から93%を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-10T19:40:25Z) - DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では, ベイズ最適化を用いたデータ選択手法として, 影響関数をインターリーブし, 特定の未確認評価タスクからのフィードバックによるデータ混合を最適化する, グローバル・ローカルなアルゴリズムを提案する。
DUETの累積的後悔を解析することにより、DUETはタスクに関するデータ知識がなくても、見えないタスクに対して最適なトレーニングデータ混合に収束することを示す。
論文 参考訳(メタデータ) (2025-02-01T01:52:32Z) - Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [61.13296177652599]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。
2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Rethinking Overlooked Aspects in Vision-Language Models [32.525916879333145]
近年の視覚言語モデル(LVLM)の進歩は顕著である。
最近の研究は、モデルの性能を向上させるために、事前学習と指導のチューニングデータの導入に重点を置いている。
本稿では,事前学習におけるデータ効率の非無視的な側面と,トレーニングデータセットの選択過程について述べる。
論文 参考訳(メタデータ) (2024-05-20T07:53:41Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。