Fugu-MT 論文翻訳(概要): Optimizing Pre-Training Data Mixtures with Mixtures of Data Expert Models

論文の概要: Optimizing Pre-Training Data Mixtures with Mixtures of Data Expert Models

arxiv url: http://arxiv.org/abs/2502.15950v1
Date: Fri, 21 Feb 2025 21:27:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:55.896243
Title: Optimizing Pre-Training Data Mixtures with Mixtures of Data Expert Models
Title（参考訳）: データエキスパートモデルの混合による事前学習データ混合の最適化
Authors: Lior Belenki, Alekh Agarwal, Tianze Shi, Kristina Toutanova,
Abstract要約: 本稿では,各候補混合物に対応するクロスエントロピー損失の効率的な近似により,データ混合の事前学習を最適化する手法を提案する。我々はこの近似を回帰モデルにおける付加的な特徴の源として用い、少数の混合物に対するモデル損失の観測から訓練した。
参考スコア（独自算出の注目度）: 24.396525123797073
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We propose a method to optimize language model pre-training data mixtures through efficient approximation of the cross-entropy loss corresponding to each candidate mixture via a Mixture of Data Experts (MDE). We use this approximation as a source of additional features in a regression model, trained from observations of model loss for a small number of mixtures. Experiments with Transformer decoder-only language models in the range of 70M to 1B parameters on the SlimPajama dataset show that our method achieves significantly better performance than approaches that train regression models using only the mixture rates as input features. Combining this improved optimization method with an objective that takes into account cross-entropy on end task data leads to superior performance on few-shot downstream evaluations. We also provide theoretical insights on why aggregation of data expert predictions can provide good approximations to model losses for data mixtures.
Abstract（参考訳）: 本研究では,データエキスパートの混合(MDE)を用いて,各候補混合物に対応するクロスエントロピー損失の効率的な近似により,データ混合物の事前学習を最適化する手法を提案する。我々はこの近似を回帰モデルにおける付加的な特徴の源として用い、少数の混合物に対するモデル損失の観測から訓練した。 SlimPajamaデータセットの70Mから1Bパラメータの範囲でトランスフォーマーデコーダのみの言語モデルを用いた実験により,提案手法は,混合レートのみを入力特徴として用いた回帰モデルをトレーニングする手法よりも,はるかに優れた性能が得られることが示された。この改良された最適化手法と、エンドタスクデータにおけるクロスエントロピーを考慮した目的を組み合わせることで、数ショットダウンストリーム評価において優れた性能が得られる。また、データエキスパート予測の集約が、データミックスの損失をモデル化するのに良い近似を提供する理由に関する理論的洞察を提供する。

関連論文リスト

DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では,ベイズ最適化を用いたデータ選択手法を組み込むことで,フィードバックループを活用できるDUETという,グローバル・ローカルなアルゴリズムを提案する。その結果、DUETは、データドメインのプールから混合したトレーニングデータを効率よく洗練し、目に見えない評価タスクにおけるモデルの性能を最大化することができる。
論文参考訳（メタデータ） (2025-02-01T01:52:32Z)
Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。 UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文参考訳（メタデータ） (2025-01-20T21:10:22Z)
Scalable Data Ablation Approximations for Language Models through Modular Training and Merging [27.445079398772904]
本稿では,学習コーパスのサブセット上で個々のモデルを訓練するデータ短縮を効果的に近似する方法を提案する。任意の評価セットが与えられた場合、候補データに基づいてトレーニングされた単一モデルのパープレキシティスコアは、そのデータの異なる分割に基づいてトレーニングされたモデルのパラメータ平均のパープレキシティスコアと強く相関していることが分かる。
論文参考訳（メタデータ） (2024-10-21T06:03:49Z)
BiMix: A Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。 $textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文参考訳（メタデータ） (2024-05-23T09:44:02Z)
Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文参考訳（メタデータ） (2024-03-25T17:14:00Z)
Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-05T00:42:35Z)
Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文参考訳（メタデータ） (2022-10-05T09:17:27Z)
An Extended Multi-Model Regression Approach for Compressive Strength Prediction and Optimization of a Concrete Mixture [0.0]
コンクリートの圧縮強度のモデルに基づく評価は, 強度予測と混合最適化の両方のために高い値である。複数の回帰手法の重み付け組み合わせにより予測モデルの精度を向上させるためのさらなる一歩を踏み出す。得られた多回帰モデルに基づいてGAに基づく混合最適化を提案する。
論文参考訳（メタデータ） (2021-06-13T16:10:32Z)
A similarity-based Bayesian mixture-of-experts model [0.5156484100374058]
多変量回帰問題に対する新しい非パラメトリック混合実験モデルを提案する。条件付きモデルを用いて、サンプル外入力の予測は、観測された各データポイントと類似性に基づいて行われる。混合物のパラメータと距離測定値に基づいて後部推論を行う。
論文参考訳（メタデータ） (2020-12-03T18:08:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。