論文の概要: Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization
- arxiv url: http://arxiv.org/abs/2603.08022v1
- Date: Mon, 09 Mar 2026 06:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.613223
- Title: Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization
- Title(参考訳): LLMデータの効率的な最適化を可能にするキャパシティ・アウェア混合法
- Authors: Jingwei Li, Xinran Gu, Jingzhao Zhang,
- Abstract要約: データ混合スケーリングのための計算効率の高いパイプラインを導入する。
まず、検証損失をモデル化するキャパシティ対応混合法則CAMELを提案する。
また,検証損失からベンチマーク精度を推定する損益予測法を導入する。
- 参考スコア(独自算出の注目度): 20.220685778194156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A data mixture refers to how different data sources are combined to train large language models, and selecting an effective mixture is crucial for optimal downstream performance. Existing methods either conduct costly searches directly on the target model or rely on mixture scaling laws that fail to extrapolate well to large model sizes. We address these limitations by introducing a compute-efficient pipeline for data mixture scaling. First, we propose CAMEL, a capacity-aware mixture law that models validation loss with the nonlinear interplay between model size and mixture. We also introduce a loss-to-benchmark prediction law that estimates benchmark accuracy from validation loss, enabling end-to-end performance prediction for the target model. Next, we study how to allocate a fixed compute budget across model scales to fit the law and reduce prediction error. Finally, we apply our method to Mixture-of-Experts models with up to 7B-A150M parameters to fit the law, and verify the optimal mixture derived from the law by extrapolating to a 55B-A1.2B target model. Compared to prior methods, we reduces mixture optimization costs by 50\% and improves downstream benchmark performance by up to 3\%.
- Abstract(参考訳): データミックスとは、異なるデータソースをどのように組み合わせて、大規模な言語モデルをトレーニングするかを指し、効果的なミックスを選択することは、下流のパフォーマンスを最適にするために不可欠である。
既存の手法は、ターゲットモデルに直接費用のかかる検索を行うか、大きなモデルサイズによく当てはまらない混合スケーリング法則に依存する。
データ混合スケーリングのための計算効率のよいパイプラインを導入することで、これらの制限に対処する。
まず,キャパシティを考慮した混合法則であるCAMELを提案する。
また、検証損失からベンチマーク精度を推定し、目標モデルに対するエンドツーエンドのパフォーマンス予測を可能にする損失・ベンチマーク予測法も導入する。
次に,法則に適合し,予測誤差を低減するために,モデルスケールにまたがる固定計算予算を割り当てる方法について検討する。
最後に,法則に適合する最大7B-A150Mパラメータを持つMixture-of-Expertsモデルに適用し,55B-A1.2Bターゲットモデルに外挿することで法則から導出される最適混合を検証した。
従来の手法と比較して、混合最適化コストを50%削減し、ダウンストリームベンチマークのパフォーマンスを最大3倍改善する。
関連論文リスト
- MergeMix: Optimizing Mid-Training Data Mixtures via Learnable Model Merging [72.00014675808228]
textbfMixは、重みをマージするモデルを高忠実で低コストなパフォーマンスプロキシとして再利用することで、最適なデータ混合比を決定する。
8B と 16B のパラメータを持つモデルの実験では、MergeMix が完全なマニュアルチューニングに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2026-01-25T14:31:57Z) - ADMIRE-BayesOpt: Accelerated Data MIxture RE-weighting for Language Models with Bayesian Optimization [11.433087692377779]
本稿では,100万から70億のパラメータを対象とするモデルを対象とした事前学習と指導の微調整について述べる。
我々は,幅広いベースラインに対して一貫して強い結果を示し,500%以上のスピードアップを実現した。
さらに、ADMIRE IFT Runsという460のフルトレーニングと評価のデータセットを13,000時間以上のGPU時間で共有することで、研究へのアクセスを拡大しています。
論文 参考訳(メタデータ) (2025-08-15T15:53:09Z) - Optimizing Pre-Training Data Mixtures with Mixtures of Data Expert Models [24.396525123797073]
本稿では,各候補混合物に対応するクロスエントロピー損失の効率的な近似により,データ混合の事前学習を最適化する手法を提案する。
我々はこの近似を回帰モデルにおける付加的な特徴の源として用い、少数の混合物に対するモデル損失の観測から訓練した。
論文 参考訳(メタデータ) (2025-02-21T21:27:48Z) - Aioli: A Unified Optimization Framework for Language Model Data Mixing [74.50480703834508]
提案手法は, 単層サンプリングベースラインを平均的なテストパープレキシティで一貫した性能を発揮できないことを示す。
我々は、Aioliという新しいオンライン手法を導き、トレーニング全体を通して法パラメータの混合を直接推定し、それらを用いて比率を動的に調整する。
論文 参考訳(メタデータ) (2024-11-08T17:50:24Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。