論文の概要: FLUX: Data Worth Training On
- arxiv url: http://arxiv.org/abs/2603.13972v1
- Date: Sat, 14 Mar 2026 14:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.520572
- Title: FLUX: Data Worth Training On
- Title(参考訳): FLUX: データ価値のトレーニング
- Authors: Gowtham, Sai Rupesh, Sanjay Kumar, Saravanan, Venkata Chaithanya,
- Abstract要約: FLUXは、厳格な品質管理を行いながらトークン保持を最大化するように設計された、Webスケールのデータ前処理パイプラインである。
60BトークンでFLUXでトレーニングされたモデルは32.14%のMMLU精度を達成し、以前の最先端パイプラインDCLM (31.98%) を上回り、FineWeb (29.88%) をはるかに上回っている。
FLUX-Baseは192Bのトークンを出力し、FineWebの170Bを超える。
- 参考スコア(独自算出の注目度): 2.953483347379839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language model training is no longer limited by data availability, but by the inability of existing preprocessing pipelines to simultaneously achieve massive scale and high data quality. Current approaches are forced to sacrifice one for the other: either aggressively filtering to improve quality at the cost of severe token loss, or retaining large volumes of data while introducing substantial noise. In this work, we introduce FLUX, a preprocessing pipeline specifically designed to break this long-standing trade-off by maximizing token retention while enforcing rigorous quality control. Models trained on FLUX-curated data consistently outperform prior methods. A 3B-parameter model trained on 60B tokens with FLUX achieves 32.14% MMLU accuracy, surpassing the previous state-of-the-art pipeline DCLM (31.98%) and significantly outperforming FineWeb (29.88%). FLUX achieves the same aggregate score as a model trained on DCLM data using only 39B tokens, resulting in a 34.4% reduction in training compute. At the data level, FLUX extracts 50B usable tokens from a single dump (CC-MAIN-2025-51), compared to 40B from DCLM (+25% retention). FLUX-Base yields 192B tokens, exceeding FineWeb's 170B while still maintaining superior quality. Overall, FLUX establishes a new state of the art in web-scale data preprocessing by demonstrating that high retention, strong quality control, and computational efficiency can be achieved simultaneously, redefining the limits of scalable dataset construction for modern language models.
- Abstract(参考訳): 現代の大規模言語モデルのトレーニングは、データ可用性によって制限されるのではなく、既存の前処理パイプラインが大規模なデータ品質と高いデータ品質を同時に達成できないためである。
現在のアプローチでは、厳しいトークン損失の犠牲で品質を改善するために積極的にフィルタリングするか、重大なノイズを発生させながら大量のデータを保持するかのいずれかを犠牲にしている。
本研究では,トークン保持を最大化し,厳格な品質管理を図りながら,この長期的トレードオフを打破するための前処理パイプラインであるFLUXを紹介する。
FLUXで計算されたデータに基づいてトレーニングされたモデルは、従来手法よりも一貫して優れていた。
FLUXで60Bトークンでトレーニングされた3Bパラメータモデルは、従来の最先端パイプラインDCLM(31.98%)を上回り、FineWeb(29.88%)をはるかに上回る精度で32.14%のMMLUを達成する。
FLUXは、39Bトークンのみを使用してDCLMデータ上でトレーニングされたモデルと同じ集計スコアを達成し、トレーニング計算を34.4%削減した。
データレベルでは、FLUXは単一のダンプ(CC-MAIN-2025-51)から50Bのトークンを抽出する。
FLUX-Baseは192Bのトークンを出力し、FineWebの170Bを超える。
全体として、FLUXは、高い保持性、強力な品質制御、計算効率を同時に達成できることを実証し、モダンな言語モデルのためのスケーラブルなデータセット構築の限界を再定義することで、Webスケールのデータ前処理における新たな最先端技術を確立します。
関連論文リスト
- Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data [57.85958428020496]
Flow-Guided Neural Operator (FGNO)は、演算子学習とフローマッチングを組み合わせた新しいフレームワークである。
FGNOは、短時間フーリエ変換を用いて関数空間のマッピングを学習し、異なる時間分解能を統一する。
推論中にノイズのある入力を使用する以前の生成SSL法とは異なり、ノイズのある表現を学習しながら、クリーンな入力を用いて表現抽出を行う。
論文 参考訳(メタデータ) (2026-02-12T18:54:57Z) - ANML: Attribution-Native Machine Learning with Guaranteed Robustness [0.0]
トレーニングサンプルを4つの品質要因で重み付けするフレームワークであるANMLを紹介します。
ANMLは勾配のみのベースラインよりも33~72%のエラー低減を実現している。
コントリビュータレベルの属性は、サンプルレベルのメソッドよりも1.3-5.3倍向上する。
論文 参考訳(メタデータ) (2026-02-12T08:12:30Z) - Diffusion Language Models are Super Data Learners [61.721441061210896]
ユニークなデータが限られている場合、拡散言語モデル(DLM)は、よりエポックなトレーニングによって、常に自己回帰モデル(AR)を上回ります。
本研究の目的は,(1) 任意の次数モデリング,(2) 反復的双方向 denoising からの超高次計算,(3) モンテカルロ増分という3つの複合的要因に起因する。
論文 参考訳(メタデータ) (2025-11-05T08:17:42Z) - RefineX: Learning to Refine Pre-training Data at Scale from Expert-Guided Programs [76.3459242819381]
RefineXは、プログラムによる編集タスクを通じて、トレーニング済みデータの大規模かつ外科的な洗練を行うための新しいフレームワークである。
RefineXのコアとなる強みは、高品質で専門家が指導するエンドツーエンドの精錬結果を最小限の編集ベースの削除プログラムに蒸留することにある。
RefineXを複数のモデルスケールで事前学習し、生データ、フィルタリングデータ、または代替データでトレーニングされたモデルより一貫して優れています。
論文 参考訳(メタデータ) (2025-07-04T02:19:58Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - Fourier Head: Helping Large Language Models Learn Complex Probability Distributions [7.074506869260538]
フーリエ級数を用いて構築されたニューラルネットワーク層を導入し,出力がより連続的な構造であれば,任意の線形層に置換することができる。
我々は,大規模な意思決定や時系列予測タスクと同様に,合成データセットの広範な分析を行う。
提案したフーリエヘッドは,基礎となるデータ分布が自然な連続構造を持つシナリオにおいて有効である。
論文 参考訳(メタデータ) (2024-10-29T17:27:58Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。