論文の概要: MergeMix: Optimizing Mid-Training Data Mixtures via Learnable Model Merging
- arxiv url: http://arxiv.org/abs/2601.17858v1
- Date: Sun, 25 Jan 2026 14:31:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.492427
- Title: MergeMix: Optimizing Mid-Training Data Mixtures via Learnable Model Merging
- Title(参考訳): MergeMix: 学習可能なモデルマージによる中間トレーニングデータミックスの最適化
- Authors: Jiapeng Wang, Changxin Tian, Kunlong Chen, Ziqi Liu, Jiaxin Mao, Wayne Xin Zhao, Zhiqiang Zhang, Jun Zhou,
- Abstract要約: textbfMixは、重みをマージするモデルを高忠実で低コストなパフォーマンスプロキシとして再利用することで、最適なデータ混合比を決定する。
8B と 16B のパラメータを持つモデルの実験では、MergeMix が完全なマニュアルチューニングに匹敵するパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 72.00014675808228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing data mixtures is essential for unlocking the full potential of large language models (LLMs), yet identifying the optimal composition remains computationally prohibitive due to reliance on heuristic trials or expensive proxy training. To address this, we introduce \textbf{MergeMix}, a novel approach that efficiently determines optimal data mixing ratios by repurposing model merging weights as a high-fidelity, low-cost performance proxy. By training domain-specific experts on minimal tokens and optimizing their merging weights against downstream benchmarks, MergeMix effectively optimizes the performance of data mixtures without incurring the cost of full-scale training. Extensive experiments on models with 8B and 16B parameters validate that MergeMix achieves performance comparable to or surpassing exhaustive manual tuning while drastically reducing search costs. Furthermore, MergeMix exhibits high rank consistency (Spearman $ρ> 0.9$) and strong cross-scale transferability, offering a scalable, automated solution for data mixture optimization.
- Abstract(参考訳): データ混合の最適化は、大きな言語モデル(LLM)の潜在能力を最大限に活用するために不可欠であるが、最適な構成を特定することは、ヒューリスティックな試行や高価なプロキシトレーニングに依存するため、計算的に禁止されている。
そこで本研究では,重みをマージするモデルを高忠実で低コストなパフォーマンスプロキシとして再利用することで,最適なデータ混合比を効率的に決定する新しい手法である,textbf{MergeMix}を紹介する。
最小限のトークンに関するドメイン固有の専門家のトレーニングと、ダウンストリームベンチマークに対するマージ重み付けの最適化により、MergeMixは、フルスケールのトレーニングコストを伴わずに、データミックスのパフォーマンスを効果的に最適化する。
8B と 16B のパラメータを持つモデルに対する大規模な実験は、MergeMix が検索コストを大幅に削減しつつ、徹底的なマニュアルチューニングに匹敵するか、あるいは超えるパフォーマンスを達成することを実証している。
さらに、MergeMixは高階一貫性(Spearman $ρ> 0.9$)と強力なクロススケールトランスファービリティを示し、データ混合最適化のためのスケーラブルで自動化されたソリューションを提供する。
関連論文リスト
- TREX: Tokenizer Regression for Optimal Data Mixture [10.917621429052183]
Tokenizer Regression for Optimal Data MiXture (TREX)は、トークン処理者のトレーニングに最適なデータ混合物を効率的に予測する回帰ベースのフレームワークである。
TREXは、ランダムな混合物上で小規模なプロキシトークンを訓練し、圧縮統計を収集し、データ混合物から圧縮性能を予測する。
TReXの予測混合物は、LLaMA3と均一分布に基づいて混合物を最大12%圧縮する。
論文 参考訳(メタデータ) (2026-01-20T04:41:09Z) - Merge to Mix: Mixing Datasets via Model Merging [2.990932417718553]
大規模モデル(LM)を微調整するためのデータセットの混合は、下流タスクのパフォーマンスを最大化するために重要になっている。
モデルマージによるデータセットの合成を高速化する新しい手法であるtextitMerge to Mix$を提案する。
実験により、Merge to Mixは、微調整LMのためのデータセット選択において最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-05-21T22:34:13Z) - Optimizing Pre-Training Data Mixtures with Mixtures of Data Expert Models [24.396525123797073]
本稿では,各候補混合物に対応するクロスエントロピー損失の効率的な近似により,データ混合の事前学習を最適化する手法を提案する。
我々はこの近似を回帰モデルにおける付加的な特徴の源として用い、少数の混合物に対するモデル損失の観測から訓練した。
論文 参考訳(メタデータ) (2025-02-21T21:27:48Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。