論文の概要: Data Mixing for Large Language Models Pretraining: A Survey and Outlook
- arxiv url: http://arxiv.org/abs/2604.16380v1
- Date: Wed, 25 Mar 2026 13:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.946201
- Title: Data Mixing for Large Language Models Pretraining: A Survey and Outlook
- Title(参考訳): 大規模言語モデルの事前学習のためのデータ混合:調査と展望
- Authors: Zhuo Chen, Yuxuan Miao, Supryadi, Deyi Xiong,
- Abstract要約: 大規模言語モデル(LLM)は、大規模で不均一なコーパスの事前訓練に依存している。
サンプルレベルのデータ選択とは異なり、データミキシングはドメインレベルのサンプリング重量を最適化し、限られた予算をより効率的に割り当てる。
本稿では,LLM事前学習におけるデータ混合の総合的な検討について述べる。
- 参考スコア(独自算出の注目度): 52.66761353708619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) rely on pretraining on massive and heterogeneous corpora, where training data composition has a decisive impact on training efficiency and downstream generalization under realistic compute and data budget constraints. Unlike sample-level data selection, data mixing optimizes domain-level sampling weights to allocate limited budgets more effectively. In recent years, a growing body of work has proposed principled data mixing methods for LLM pretraining; however, the literature remains fragmented and lacks a dedicated, systematic survey. This paper provides a comprehensive review of data mixing for LLM pretraining. We first formalize data mixture optimization as a bilevel problem on the probability simplex and clarify the role of data mixing in the pretraining pipeline, and briefly explain how existing methods make this formulation tractable in practice. We then introduce a fine-grained taxonomy that organizes existing methods along two dimensions: static versus dynamic mixing. Static mixing is further categorized into rule-based and learning-based methods, while dynamic mixing is grouped into adaptive and externally guided families. For each class, we summarize representative approaches and analyze their strengths and limitations from a performance-cost trade-off perspective. Building on this analysis, we highlight challenges that cut across methods, including limited transferability across data domains, optimization objectives, models, and validation sets, as well as unstandardized evaluation protocols and benchmarks, and the inherent tension between performance gains and cost control in learning-based methods. Finally, we outline several exploratory directions, including finer-grained domain partitioning and inverse data mixing, as well as pipeline-aware designs, aiming to provide conceptual and methodological insights for future research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、訓練データ構成がリアルな計算とデータ予算の制約の下でのトレーニング効率と下流の一般化に決定的な影響を与える、大規模で異種なコーパスの事前訓練に依存している。
サンプルレベルのデータ選択とは異なり、データミキシングはドメインレベルのサンプリング重量を最適化し、限られた予算をより効率的に割り当てる。
近年,LLM事前学習のための基本データ混合手法が提案されているが,文献は断片化され,専門的な体系的な調査は行われていない。
本稿では,LLM事前学習におけるデータ混合の総合的な検討について述べる。
まず,確率的単純度に関する二段階問題としてデータ混合最適化を定式化し,事前学習パイプラインにおけるデータ混合の役割を明らかにする。
次に、静的と動的の混合という2つの次元に沿って既存のメソッドを整理する、きめ細かい分類法を紹介します。
静的混合はさらにルールベースおよび学習ベースに分類され、動的混合は適応型および外部誘導型ファミリーに分類される。
各クラスについて、代表的アプローチを要約し、パフォーマンスコストのトレードオフの観点から、その強みと限界を分析します。
この分析に基づいて、データドメイン間の転送可能性の制限、最適化目標、モデル、検証セット、標準化されていない評価プロトコルやベンチマーク、学習ベースの手法におけるパフォーマンス向上とコスト管理の固有の緊張など、メソッドを横断する課題を強調した。
最後に、より微細なドメイン分割や逆データ混合、パイプライン対応の設計など、いくつかの探索的な方向性を概説し、将来の研究に概念的および方法論的な洞察を提供することを目的としている。
関連論文リスト
- Heterogeneous Self-Supervised Acoustic Pre-Training with Local Constraints [64.15709757611369]
異種データを扱うための自己教師付き事前学習手法を提案する。
提案手法は、下流の教師付き微調整タスクに対する自己教師付き事前訓練モデルの適応性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2025-08-27T15:48:50Z) - Federated Online Learning for Heterogeneous Multisource Streaming Data [0.0]
フェデレートラーニングは、プライバシの懸念の下で分散マルチソースデータ分析に不可欠なパラダイムとして登場した。
本稿では,分散マルチソースストリーミングデータ解析のためのFOL手法を提案する。
論文 参考訳(メタデータ) (2025-08-08T19:08:53Z) - Topic Over Source: The Key to Effective Data Mixing for Language Models Pre-training [10.769503491579666]
マルチステージプロセスで生成された詳細なトピックラベルを利用するトピックベースのデータミキシング戦略を提案する。
我々は、トピックによって混合されたデータに基づいて事前訓練された言語モデルは、ソースによって混合されたデータで訓練された言語よりも一貫して優れていることを示した。
理論的解析により,トピックベースのデータは,ソースベースのアプローチに比べて検証損失が著しく低いことがわかった。
論文 参考訳(メタデータ) (2025-02-24T03:25:56Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - Scalable Data Ablation Approximations for Language Models through Modular Training and Merging [27.445079398772904]
本稿では,学習コーパスのサブセット上で個々のモデルを訓練するデータ短縮を効果的に近似する方法を提案する。
任意の評価セットが与えられた場合、候補データに基づいてトレーニングされた単一モデルのパープレキシティスコアは、そのデータの異なる分割に基づいてトレーニングされたモデルのパラメータ平均のパープレキシティスコアと強く相関していることが分かる。
論文 参考訳(メタデータ) (2024-10-21T06:03:49Z) - BiMix: A Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。
$textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。
我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文 参考訳(メタデータ) (2024-05-23T09:44:02Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。