論文の概要: OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training
- arxiv url: http://arxiv.org/abs/2603.28858v1
- Date: Mon, 30 Mar 2026 18:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.641262
- Title: OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training
- Title(参考訳): OptiMer: 継続的な事前トレーニングのためのデータ混合よりも最適な分散ベクトルマージ
- Authors: Haiyue Song, Masao Utiyama,
- Abstract要約: トレーニングから比選択を分離するOptiMerを提案する。
Gemma 3 27Bの言語(日本語、中国語)およびドメイン(Math, Code)における実験
- 参考スコア(独自算出の注目度): 14.608696839111134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual pre-training is widely used to adapt LLMs to target languages and domains, yet the mixture ratio of training data remains a sensitive hyperparameter that is expensive to tune: they must be fixed before training begins, and a suboptimal choice can waste weeks of compute. In this work, we propose OptiMer, which decouples ratio selection from training: we train one CPT model per dataset, extract each model's distribution vector, which represents the parameter shift induced by that dataset, and search for optimal composition weights post-hoc via Bayesian optimization. Experiments on Gemma 3 27B across languages (Japanese, Chinese) and domains (Math, Code) show that OptiMer consistently outperforms data mixture and model averaging baselines with 15-35 times lower search cost. Key findings reveal that 1) the optimized weights can be interpreted as data mixture ratios, and retraining with these ratios improves data mixture CPT, and 2) the same vector pool can be re-optimized for a given objective without any retraining, producing target-tailored models on demand. Our work establishes that data mixture ratio selection, traditionally a pre-training decision, can be reformulated as a post-hoc optimization over distribution vectors, offering a more flexible paradigm for continual pre-training.
- Abstract(参考訳): 連続的な事前トレーニングは、LLMをターゲット言語やドメインに適用するために広く使用されているが、トレーニングデータの混合比率は、チューニングにコストがかかるセンシティブなハイパーパラメータであり、トレーニングが始まる前に修正しなければならない。
そこで本研究では,データセット毎に1つのCPTモデルをトレーニングし,そのデータセットによって誘導されるパラメータシフトを表す各モデルの分布ベクトルを抽出し,ベイズ最適化によるポストホック後の最適組成重みの探索を行う。
Gemma 3 27Bを言語(日本語、中国語)とドメイン(Math, Code)で実験した結果、OptiMerはデータ混合や平均化ベースラインを15~35倍の検索コストで一貫して上回っていることがわかった。
主な発見は
1) 最適化された重量はデータ混合比と解釈でき、これらの比率で再トレーニングすることでデータ混合CPTが向上する。
2)同じベクトルプールを任意の目的に対して再訓練することなく再最適化でき、必要に応じてターゲット調整されたモデルを生成することができる。
我々の研究は、従来の事前学習決定であるデータ混合比の選択を、分布ベクトルに対するポストホック最適化として再定義することができ、連続的な事前学習のためのより柔軟なパラダイムを提供する。
関連論文リスト
- DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models [51.48564522455171]
LLaMA-Factory上に構築されたデータ中心の動的トレーニングフレームワークであるDataFlexを紹介します。
DataFlexは、サンプル選択、ドメイン混合調整調整、データ再重み付けという、動的なデータ最適化の3つの主要なパラダイムをサポートします。
トレーナーの抽象化とモジュールコンポーネントを提供し、標準のLLMトレーニングをドロップインで置き換えることを可能にする。
論文 参考訳(メタデータ) (2026-03-27T08:28:02Z) - Linear Model Merging Unlocks Simple and Scalable Multimodal Data Mixture Optimization [38.78268216433473]
異なるデータ混合物の性能を推定するための効率的な戦略としてモデルマージについて検討する。
我々は14のマルチモーダルベンチマーク実験を行い、プロキシモデルが実際のデータ混合に基づいてトレーニングされたモデルと高い相関を示すことを実証的に実証した。
論文 参考訳(メタデータ) (2026-02-04T16:06:39Z) - MergeMix: Optimizing Mid-Training Data Mixtures via Learnable Model Merging [72.00014675808228]
textbfMixは、重みをマージするモデルを高忠実で低コストなパフォーマンスプロキシとして再利用することで、最適なデータ混合比を決定する。
8B と 16B のパラメータを持つモデルの実験では、MergeMix が完全なマニュアルチューニングに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2026-01-25T14:31:57Z) - Optimizing the Training Diet: Data Mixture Search for Robust Time Series Forecasting [0.8665758002017515]
データセットを考える場合、いくつかのケースでは"なしはそれ以上"であることが示されます。
本稿では,大規模・未ラベルの時系列コーパスから最適な「トレーニングダイエット」を発見するための枠組みを提案する。
論文 参考訳(メタデータ) (2025-12-12T13:26:07Z) - Composable Cross-prompt Essay Scoring by Merging Models [7.5702468122067685]
クロスプロンプト自動エッセイは、典型的にはすべてのソースプロンプトで共同でモデルを訓練する。
本稿では、データセットの代わりに個別に訓練されたソースモデルのパラメータを選択的にマージする、ソースフリー適応手法を提案する。
論文 参考訳(メタデータ) (2025-05-24T06:28:21Z) - Optimizing Pre-Training Data Mixtures with Mixtures of Data Expert Models [24.396525123797073]
本稿では,各候補混合物に対応するクロスエントロピー損失の効率的な近似により,データ混合の事前学習を最適化する手法を提案する。
我々はこの近似を回帰モデルにおける付加的な特徴の源として用い、少数の混合物に対するモデル損失の観測から訓練した。
論文 参考訳(メタデータ) (2025-02-21T21:27:48Z) - AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [59.12061830645018]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。
2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。