論文の概要: Data Darwinism Part II: DataEvolve -- AI can Autonomously Evolve Pretraining Data Curation
- arxiv url: http://arxiv.org/abs/2603.14420v1
- Date: Sun, 15 Mar 2026 15:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.802626
- Title: Data Darwinism Part II: DataEvolve -- AI can Autonomously Evolve Pretraining Data Curation
- Title(参考訳): データダーウィン主義 第2部:DataEvolve -- AIはデータキュレーションの事前学習を自律的に行うことができる
- Authors: Tiantian Mi, Dongming Shan, Zhen Huang, Yiwei Qin, Muhang Xie, Yuxuan Qiao, Yixiu Liu, Chenyang Zhou, Pengfei Liu,
- Abstract要約: 我々は,手作業による設計よりも反復的な最適化を通じて戦略の進化を可能にするフレームワークであるDataEvolveを紹介した。
データカテゴリごとに、DataEvolveはクローズドな進化ループで動作し、品質問題を特定し、候補戦略を生成し、サンプルデータ上でそれらを実行し、結果を評価し、世代にわたってアプローチを洗練する。
Nemotron-CCから672Bトークンにまたがる8つのカテゴリに適用して、DataEvolveは、504BのデータセットであるDarwin-CCを生成する。
- 参考スコア(独自算出の注目度): 21.906969988408573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data Darwinism (Part I) established a ten-level hierarchy for data processing, showing that stronger processing can unlock greater data value. However, that work relied on manually designed strategies for a single category. Modern pretraining corpora comprise hundreds of heterogeneous categories spanning domains and content types, each demanding specialized treatment. At this scale, manual strategy design becomes prohibitive. This raises a key question: can strategies evolve in an automated way? We introduce DataEvolve, a framework that enables strategies to evolve through iterative optimization rather than manual design. For each data category, DataEvolve operates in a closed evolutionary loop: it identifies quality issues, generates candidate strategies, executes them on sampled data, evaluates results, and refines approaches across generations. The process accumulates knowledge through an experience pool of discovered issues and a strategy pool tracking performance across iterations. Applied to 8 categories spanning 672B tokens from Nemotron-CC, DataEvolve produces Darwin-CC, a 504B-token dataset with strategies evolved through 30 iterations per category. Training 3B models on 500B tokens, Darwin-CC outperforms raw data (+3.96 points) and achieves a 44.13 average score across 18 benchmarks, surpassing DCLM, Ultra-FineWeb, and FineWeb-Edu, with strong gains on knowledge-intensive tasks such as MMLU. Analysis shows evolved strategies converge on cleaning-focused approaches: targeted noise removal and format normalization with domain-aware preservation, echoing the L4 (Generative Refinement) principles from Part I. Ablation studies confirm iterative evolution is essential: optimized strategies outperform suboptimal ones by 2.93 points, establishing evolutionary strategy design as feasible and necessary for pretraining-scale data curation.
- Abstract(参考訳): データダーウィン主義(パートI)は、データ処理のための10レベルの階層を確立し、より強力な処理がより大きなデータ価値を解放できることを示した。
しかし、その作業は1つのカテゴリで手作業で設計した戦略に依存していた。
現代のプレトレーニングコーパスは、ドメインとコンテンツタイプにまたがる数百の異種カテゴリーで構成され、それぞれが専門的な治療を必要としている。
この規模では、手動の戦略設計は禁止される。
戦略は自動化された方法で進化できるか?
我々は,手作業による設計よりも反復的な最適化を通じて戦略の進化を可能にするフレームワークであるDataEvolveを紹介した。
データカテゴリごとに、DataEvolveはクローズドな進化ループで動作し、品質問題を特定し、候補戦略を生成し、サンプルデータ上でそれらを実行し、結果を評価し、世代にわたってアプローチを洗練する。
このプロセスは、発見された問題のエクスペリエンスプールと、イテレーション間でのパフォーマンスを追跡する戦略プールを通じて、知識を蓄積する。
Nemotron-CCの672Bトークンにまたがる8つのカテゴリに適用すると、DataEvolveはDarwin-CCを生成する。
500Bトークン上での3Bモデルのトレーニングでは、Darwin-CCは生データ(+3.96ポイント)より優れ、18ベンチマークの平均スコアは44.13で、DCLM、Ultra-FineWeb、FineWeb-Eduを上回り、MMLUのような知識集約的なタスクに大きく貢献している。
分析の結果、進化的戦略はクリーニングに焦点を当てたアプローチに収束している: ターゲットノイズ除去と形式正規化とドメイン認識保存との整合性、第1部からのL4(ジェネレーティブ・リファインメント)原則の反映 アブレーション研究は反復的進化が不可欠であることを確認した。
関連論文リスト
- Controlled Self-Evolution for Algorithmic Code Optimization [33.82967000330864]
自己進化的手法は、反復的な"生成-検証-精細"サイクルを通じてコード生成を強化する。
既存のアプローチでは、限られた予算内で優れた複雑さを持つソリューションを見つけることができません。
本稿では3つのキーコンポーネントからなる制御自己進化(CSE)を提案する。
論文 参考訳(メタデータ) (2026-01-12T09:23:13Z) - OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Evolutionary Generative Optimization: Towards Fully Data-Driven Evolutionary Optimization via Generative Learning [41.44929681213813]
我々は、生成学習によって強化された完全なデータ駆動型フレームワークを提案する。
EvoGOは進化的最適化プロセスを、データ準備、モデルトレーニング、人口生成の3段階に合理化している。
数値ベンチマーク、古典的な制御問題、高次元ロボットタスクの実験により、EvoGOはわずか10世代で一貫して収束することを示した。
論文 参考訳(メタデータ) (2025-08-01T07:17:57Z) - DACL-RAG: Data Augmentation Strategy with Curriculum Learning for Retrieval-Augmented Generation [54.26665681604041]
DACL-RAGは多段階データ拡張戦略と多段階学習パラダイムを組み合わせた多段階RAGトレーニングフレームワークである。
我々のフレームワークは、4つのオープンドメインQAデータセットで一貫した有効性を示し、複数の高度なメソッドに対して2%から4%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-15T16:53:04Z) - FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - Distributionally Robust Cross Subject EEG Decoding [15.211091130230589]
本稿では,デコードロバスト性を改善するために,データ上で動的に進化する原理的手法を提案する。
We derived a general data evolution framework based on Wasserstein gradient flow (WGF) and provide two different form of evolution within the framework。
提案手法は、さらなる改善のために、他のデータ拡張手法と容易に統合できる。
論文 参考訳(メタデータ) (2023-08-19T11:31:33Z) - Lottery Tickets in Evolutionary Optimization: On Sparse
Backpropagation-Free Trainability [0.0]
我々は勾配降下(GD)に基づくスパーストレーニングと進化戦略(ES)について研究する。
ESは多様で平坦な局所最適条件を探索し、疎度レベルと独立ランをまたいだ線形モード接続を保たないことがわかった。
論文 参考訳(メタデータ) (2023-05-31T15:58:54Z) - BMD: A General Class-balanced Multicentric Dynamic Prototype Strategy
for Source-free Domain Adaptation [74.93176783541332]
Source-free Domain Adaptation (SFDA)は、トレーニング済みのソースモデルを、十分にラベル付けされたソースデータにアクセスすることなく、未ラベルのターゲットドメインに適応することを目的としている。
ソースデータの欠如を補うため、既存のほとんどのメソッドは、機能プロトタイプベースの擬似ラベル戦略を導入した。
SFDAタスクのための汎用クラスベース多中心動的プロトタイプ戦略を提案する。
論文 参考訳(メタデータ) (2022-04-06T13:23:02Z) - Distributed Evolution Strategies Using TPUs for Meta-Learning [0.0]
本稿では,処理ユニット(TPU)を用いた分散進化的メタラーニング戦略を提案する。
Omniglotデータセットの進化戦略を訓練したプロトタイプネットワークを用いて、5ショットの分類問題に対して98.4%の精度を達成した。
我々のアルゴリズムは、勾配を計算するために自動微分よりも最大40分の1のメモリを使用しており、その結果、バックプロパゲーション訓練された等価値の1.3%以内の精度が得られた。
論文 参考訳(メタデータ) (2022-01-01T02:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。