論文の概要: Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2602.00747v1
- Date: Sat, 31 Jan 2026 14:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.371573
- Title: Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training
- Title(参考訳): トレーニングからの分離探索:大規模言語モデル事前学習のためのモデルマージによるデータ混合のスケーリング
- Authors: Shengrui Li, Fei Zhao, Kaiyan Zhao, Jieying Ye, Haifeng Liu, Fangcheng Shi, Zheyong Xie, Yao Hu, Shaosheng Cao,
- Abstract要約: 本稿では,モデルマージを利用して最適なデータ比を推定する新しいフレームワークであるDeouple Searching from Training Mix (DeMix)を提案する。
DeMixは,検索効率,精度,効率のトレードオフを破り,検索コストの低いベンチマーク性能と最適混合が得られることを示す。
- 参考スコア(独自算出の注目度): 16.022416196267937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Determining an effective data mixture is a key factor in Large Language Model (LLM) pre-training, where models must balance general competence with proficiency on hard tasks such as math and code. However, identifying an optimal mixture remains an open challenge, as existing approaches either rely on unreliable tiny-scale proxy experiments or require prohibitively expensive large-scale exploration. To address this, we propose Decouple Searching from Training Mix (DeMix), a novel framework that leverages model merging to predict optimal data ratios. Instead of training proxy models for every sampled mixture, DeMix trains component models on candidate datasets at scale and derives data mixture proxies via weighted model merging. This paradigm decouples search from training costs, enabling evaluation of unlimited sampled mixtures without extra training burden and thus facilitating better mixture discovery through more search trials. Extensive experiments demonstrate that DeMix breaks the trade-off between sufficiency, accuracy and efficiency, obtaining the optimal mixture with higher benchmark performance at lower search cost. Additionally, we release the DeMix Corpora, a comprehensive 22T-token dataset comprising high-quality pre-training data with validated mixtures to facilitate open research. Our code and DeMix Corpora is available at https://github.com/Lucius-lsr/DeMix.
- Abstract(参考訳): 実効的なデータ混合を決定することは、Large Language Model(LLM)事前トレーニングにおいて重要な要素であり、モデルが数学やコードといった難しいタスクにおいて、一般的な能力と習熟性のバランスをとる必要がある。
しかし、既存のアプローチは信頼性の低い小さなプロキシ実験に依存するか、違法に高価な大規模な探索を必要とするため、最適な混合物を特定することは未解決の課題である。
そこで本研究では,モデルマージを利用して最適なデータ比を予測する新しいフレームワークであるDeouple Searching from Training Mix (DeMix)を提案する。
サンプルミックス毎にプロキシモデルをトレーニングする代わりに、DeMixは候補データセットのコンポーネントモデルを大規模にトレーニングし、重み付けされたモデルマージを通じてデータミックスプロキシを導出する。
このパラダイムは、トレーニングコストから探索を分離し、余分な訓練負担を伴わずに無制限のサンプル混合物の評価を可能にし、より多くの探索試行を通じてより良い混合発見を容易にする。
大規模な実験により、DeMixは十分性、正確性、効率のトレードオフを破り、より低い検索コストで高いベンチマーク性能と最適な混合が得られることを示した。
さらに,オープンな研究を容易にするために,高品質な事前学習データと検証済みの混合データからなる包括的22TトークンデータセットであるDeMix Corporaをリリースする。
私たちのコードとDeMix Corporaはhttps://github.com/Lucius-lsr/DeMix.comで利用可能です。
関連論文リスト
- MergeMix: Optimizing Mid-Training Data Mixtures via Learnable Model Merging [72.00014675808228]
textbfMixは、重みをマージするモデルを高忠実で低コストなパフォーマンスプロキシとして再利用することで、最適なデータ混合比を決定する。
8B と 16B のパラメータを持つモデルの実験では、MergeMix が完全なマニュアルチューニングに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2026-01-25T14:31:57Z) - CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - MixMin: Finding Data Mixtures via Convex Minimization [23.369015146176928]
機械学習パイプラインは、多種多様なソースからのデータの組み合わせと混合が増えている。
最適なデータ混合物を見つけることは困難でオープンな問題です。
私たちはこのデータミキシング問題を2段階の目的として定式化し、最良のミキシングは、下流の目的のために最良のモデルに導かれるものです。
本稿では,モデルクラスが大きくなるにつれて,両レベルのデータ混合目標が凸となることを観察する。
論文 参考訳(メタデータ) (2025-02-14T19:15:53Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。