Fugu-MT 論文翻訳(概要): Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance

論文の概要: Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance

arxiv url: http://arxiv.org/abs/2403.16952v1
Date: Mon, 25 Mar 2024 17:14:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 20:24:47.966377
Title: Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance
Title（参考訳）: データ混合法則:言語モデリング性能の予測によるデータ混合の最適化
Authors: Jiasheng Ye, Peiju Liu, Tianxiang Sun, Yunhua Zhou, Jun Zhan, Xipeng Qiu,
Abstract要約: 本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
参考スコア（独自算出の注目度）: 55.872926690722714
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Pretraining data of large language models composes multiple domains (e.g., web texts, academic papers, codes), whose mixture proportions crucially impact the competence of outcome models. While existing endeavors rely on heuristics or qualitative strategies to tune the proportions, we discover the quantitative predictability of model performance regarding the mixture proportions in function forms, which we refer to as the data mixing laws. Fitting such functions on sample mixtures unveils model performance on unseen mixtures before actual runs, thus guiding the selection of an ideal data mixture. Furthermore, we propose nested use of the scaling laws of training steps, model sizes, and our data mixing law to enable predicting the performance of large models trained on massive data under various mixtures with only small-scale training. Moreover, experimental results verify that our method effectively optimizes the training mixture of a 1B model trained for 100B tokens in RedPajama, reaching a performance comparable to the one trained for 48% more steps on the default mixture. Extending the application of data mixing laws to continual training accurately predicts the critical mixture proportion that avoids catastrophic forgetting and outlooks the potential for dynamic data schedules
Abstract（参考訳）: 大規模な言語モデルのデータの事前学習は、複数のドメイン(Webテキスト、学術論文、コードなど)を構成する。既存の取り組みはヒューリスティックス(ヒューリスティックス)や定性的戦略(定性的戦略)に頼りながら、関数形式の混合比率に関するモデル性能の定量的予測可能性を発見し、これをデータ混合法則と呼ぶ。このような機能をサンプル混合物に合わせると、実際の実行前に目に見えない混合物のモデル性能が明らかになり、理想的なデータ混合物の選択が導かれる。さらに,学習段階,モデルサイズ,およびデータ混合法のスケーリング法則をネストした利用法則を用いて,小規模の学習しか行わない様々な混合条件下での大規模データに基づいてトレーニングされた大規模モデルの性能を予測することを提案する。さらに,実験結果から,RedPajamaの100Bトークンに対してトレーニングした1Bモデルのトレーニングミックスを効果的に最適化し,デフォルトのミキシングの48%以上のステップでトレーニングした100Bトークンに匹敵する性能に達することを確認した。データ混合法の適用を継続訓練に適用することにより、破滅的な忘れ込みを回避し、動的データスケジュールの可能性を見極める臨界混合比を正確に予測する。

関連論文リスト

CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。 ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文参考訳（メタデータ） (2025-04-17T17:58:13Z)
Optimizing Pre-Training Data Mixtures with Mixtures of Data Expert Models [24.396525123797073]
本稿では,各候補混合物に対応するクロスエントロピー損失の効率的な近似により,データ混合の事前学習を最適化する手法を提案する。我々はこの近似を回帰モデルにおける付加的な特徴の源として用い、少数の混合物に対するモデル損失の観測から訓練した。
論文参考訳（メタデータ） (2025-02-21T21:27:48Z)
Scalable Data Ablation Approximations for Language Models through Modular Training and Merging [27.445079398772904]
本稿では,学習コーパスのサブセット上で個々のモデルを訓練するデータ短縮を効果的に近似する方法を提案する。任意の評価セットが与えられた場合、候補データに基づいてトレーニングされた単一モデルのパープレキシティスコアは、そのデータの異なる分割に基づいてトレーニングされたモデルのパラメータ平均のパープレキシティスコアと強く相関していることが分かる。
論文参考訳（メタデータ） (2024-10-21T06:03:49Z)
RegMix: Data Mixture as Regression for Language Model Pre-training [40.45464495981735]
本稿では,レグレッションタスクとして定式化することで,ハイパフォーマンスなデータ混合物を自動的に識別するRegMixを提案する。 RegMixでは、さまざまなデータ混在の小さなモデルのセットをトレーニングし、レグレッションモデルを適用してパフォーマンスを予測する。提案手法は,人間の選択に比較して優れた性能を示し,DoReMiに匹敵する結果を得る。
論文参考訳（メタデータ） (2024-07-01T17:31:03Z)
RC-Mixup: A Data Augmentation Strategy against Noisy Data for Regression Tasks [27.247270530020664]
本研究では,ノイズの多いデータの存在下での回帰作業におけるロバストなデータ拡張の問題について検討する。 C-Mixupは、レグレッションパフォーマンスを改善するためにラベル距離に基づいてサンプルを混合する、より選択的である。本稿では,C-Mixupとマルチラウンドロバストな学習手法を密接に統合し,シナジスティックな効果を示すRC-Mixupを提案する。
論文参考訳（メタデータ） (2024-05-28T08:02:42Z)
BiMix: Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。 $textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文参考訳（メタデータ） (2024-05-23T09:44:02Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-05T00:42:35Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。