論文の概要: ADMIRE-BayesOpt: Accelerated Data MIxture RE-weighting for Language Models with Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2508.11551v2
- Date: Mon, 18 Aug 2025 06:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 12:43:44.931317
- Title: ADMIRE-BayesOpt: Accelerated Data MIxture RE-weighting for Language Models with Bayesian Optimization
- Title(参考訳): ADMIRE-BayesOpt:ベイズ最適化による言語モデルの高速化されたデータミクサー再重み付け
- Authors: Shengzhuang Chen, Xu Ouyang, Michael Arthur Leopold Pearce, Thomas Hartvigsen, Jonathan Richard Schwarz,
- Abstract要約: 本稿では,100万から70億のパラメータを対象とするモデルを対象とした事前学習と指導の微調整について述べる。
我々は,幅広いベースラインに対して一貫して強い結果を示し,500%以上のスピードアップを実現した。
さらに、ADMIRE IFT Runsという460のフルトレーニングと評価のデータセットを13,000時間以上のGPU時間で共有することで、研究へのアクセスを拡大しています。
- 参考スコア(独自算出の注目度): 11.433087692377779
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Determining the optimal data mixture for large language model training remains a challenging problem with an outsized impact on performance. In practice, language model developers continue to rely on heuristic exploration since no learning-based approach has emerged as a reliable solution. In this work, we propose to view the selection of training data mixtures as a black-box hyperparameter optimization problem, for which Bayesian Optimization is a well-established class of appropriate algorithms. Firstly, we cast data mixture learning as a sequential decision-making problem, in which we aim to find a suitable trade-off between the computational cost of training exploratory (proxy-) models and final mixture performance. Secondly, we systematically explore the properties of transferring mixtures learned at a small scale to larger-scale experiments, providing insights and highlighting opportunities for research at a modest scale. By proposing Multi-fidelity Bayesian Optimization as a suitable method in this common scenario, we introduce a natural framework to balance experiment cost with model fit, avoiding the risks of overfitting to smaller scales while minimizing the number of experiments at high cost. We present results for pre-training and instruction finetuning across models ranging from 1 million to 7 billion parameters, varying from simple architectures to state-of-the-art models and benchmarks spanning dozens of datasets. We demonstrate consistently strong results relative to a wide range of baselines, resulting inspeed-ups of over 500% in determining the best data mixture on our largest experiments. In addition, we broaden access to research by sharing ADMIRE IFT Runs, a dataset of 460 full training & evaluation runs worth over 13,000 GPU hours, greatly reducing the cost of conducting research in this area.
- Abstract(参考訳): 大規模言語モデルのトレーニングに最適なデータ混合物を決定することは、パフォーマンスに大きすぎる影響で依然として難しい問題である。
実際、言語モデル開発者は、信頼できるソリューションとして学習ベースのアプローチが登場していないため、ヒューリスティックな探索に頼り続けている。
本研究では,学習データ混合物の選択をブラックボックス・ハイパーパラメータ最適化問題とみなし,ベイズ最適化が適切なアルゴリズムの確立されたクラスであることを示す。
まず,データ混合学習を逐次意思決定問題とみなし,探索モデル(プロキシ-)の学習コストと最終的な混合性能との間に適切なトレードオフを見出すことを目的とした。
第2に,小規模で学習した混合物を大規模に導入する際の特性を体系的に検討し,質素なスケールで研究を行うための洞察とハイライトを行う。
この共通シナリオにおいて、多要素ベイズ最適化を適切な手法として提案することにより、実験コストとモデル適合性のバランスをとるための自然な枠組みを導入し、より小さなスケールに過度に適合するリスクを回避しつつ、実験回数を低コストで最小化する。
簡単なアーキテクチャから最先端のモデル、数十のデータセットにまたがるベンチマークまで、100万から70億のパラメータのモデルにわたる事前トレーニングと命令の微調整の結果を提示する。
その結果,最大実験において,データ混合量を決定する速度が500%を超える結果が得られた。
さらに、ADMIRE IFT Runsという460のフルトレーニングと評価のデータセットを13,000時間以上のGPU時間で共有することで、研究へのアクセスを拡大し、この分野の研究を行うコストを大幅に削減します。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Combatting Dimensional Collapse in LLM Pre-Training Data via Diversified File Selection [65.96556073745197]
DiverSified File selection algorithm (DiSF) は特徴空間における最も非相関なテキストファイルを選択するために提案される。
DiSFは590万のトレーニングファイルの98.5%をSlimPajamaに保存し、50Bのトレーニング予算内でのデータ事前トレーニングを上回っている。
論文 参考訳(メタデータ) (2025-04-29T11:13:18Z) - Data Mixture Optimization: A Multi-fidelity Multi-scale Bayesian Framework [10.317740844867913]
我々は,SlimPajamaデータセットから,さまざまなデータ構成を用いて,472言語モデルによる事前学習実行をベースとしたシミュレータを構築した。
単純な取得関数でさえ、20Mから1Bまでのトレーニングモデル間で、原則化されたトレーニング決定を可能にすることを観察する。
論文 参考訳(メタデータ) (2025-03-26T22:19:47Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。