論文の概要: RegMix: Data Mixture as Regression for Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2407.01492v2
- Date: Thu, 23 Jan 2025 17:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:08.762066
- Title: RegMix: Data Mixture as Regression for Language Model Pre-training
- Title(参考訳): RegMix: 言語モデル事前トレーニングの回帰としてのデータ混合
- Authors: Qian Liu, Xiaosen Zheng, Niklas Muennighoff, Guangtao Zeng, Longxu Dou, Tianyu Pang, Jing Jiang, Min Lin,
- Abstract要約: 本稿では,レグレッションタスクとして定式化することで,ハイパフォーマンスなデータ混合物を自動的に識別するRegMixを提案する。
RegMixは、様々なデータ混合物で多くの小さなモデルを訓練し、回帰を使って目に見えない混合物のパフォーマンスを予測し、予測された最良の混合を適用して、桁違いの計算量で大規模モデルを訓練する。
- 参考スコア(独自算出の注目度): 40.45464495981735
- License:
- Abstract: The data mixture for large language model pre-training significantly impacts performance, yet how to determine an effective mixture remains unclear. We propose RegMix to automatically identify a high-performing data mixture by formulating it as a regression task. RegMix trains many small models on diverse data mixtures, uses regression to predict performance of unseen mixtures, and applies the best predicted mixture to train a large-scale model with orders of magnitude more compute. To empirically validate RegMix, we train 512 models with 1M parameters for 1B tokens to fit the regression model and predict the best data mixture. Using this mixture we train a 1B parameter model for 25B tokens (i.e. 1000x larger and 25x longer) which we find performs best among 64 candidate 1B parameter models with other mixtures. Furthermore, RegMix consistently outperforms human selection in experiments involving models up to 7B models trained on 100B tokens, while matching or exceeding DoReMi using just 10% of the computational resources. Our experiments also show that (1) Data mixtures significantly impact performance; (2) Web corpora rather than data perceived as high-quality like Wikipedia have the strongest positive correlation with downstream performance; (3) Domains interact in complex ways often contradicting common sense, thus automatic approaches like RegMix are needed; (4) Data mixture effects transcend scaling laws. Our code is available at https://github.com/sail-sg/regmix.
- Abstract(参考訳): 大規模言語モデルの事前学習のためのデータ混合は、性能に大きな影響を及ぼすが、有効混合を決定する方法はまだ不明である。
本稿では,レグレッションタスクとして定式化することで,ハイパフォーマンスなデータ混合物を自動的に識別するRegMixを提案する。
RegMixは、様々なデータ混合物で多くの小さなモデルを訓練し、回帰を使って目に見えない混合物のパフォーマンスを予測し、予測された最良の混合を適用して、桁違いの計算量で大規模モデルを訓練する。
RegMixを実証的に検証するために、回帰モデルに適合し、最適なデータ混合を予測するために、1Bトークンに対して1Mパラメータを持つ512モデルを訓練する。
この混合を用いて、25Bトークン(すなわち1000倍大きく25倍長い)に対して1Bパラメータモデルを訓練し、64個の候補1Bパラメータモデルと他の混合品の間で最高の性能を示す。
さらに、RegMixは100Bトークンでトレーニングされた最大7Bモデルを含む実験において、人間の選択を一貫して上回り、計算リソースの10%しか使用していないDoReMiをマッチングまたは超過する。
また,(1)データ混在が性能に大きく影響すること,(2)ウィキペディアのような高品質と認識されるデータよりもWebコーパスの方が,下流のパフォーマンスに強い正の相関性があること,(3)ドメイン間の相互作用が共通感覚と矛盾することが多く,RegMixのような自動的アプローチが必要であること,(4)データ混在がスケーリング法を超越させること,などが示唆された。
私たちのコードはhttps://github.com/sail-sg/regmix.comで利用可能です。
関連論文リスト
- RC-Mixup: A Data Augmentation Strategy against Noisy Data for Regression Tasks [27.247270530020664]
本研究では,ノイズの多いデータの存在下での回帰作業におけるロバストなデータ拡張の問題について検討する。
C-Mixupは、レグレッションパフォーマンスを改善するためにラベル距離に基づいてサンプルを混合する、より選択的である。
本稿では,C-Mixupとマルチラウンドロバストな学習手法を密接に統合し,シナジスティックな効果を示すRC-Mixupを提案する。
論文 参考訳(メタデータ) (2024-05-28T08:02:42Z) - BiMix: Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。
$textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。
我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文 参考訳(メタデータ) (2024-05-23T09:44:02Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - C-Mixup: Improving Generalization in Regression [71.10418219781575]
混合アルゴリズムは、一対の例とその対応するラベルを線形補間することによって一般化を改善する。
ラベルの類似度に基づいてサンプリング確率を調整するC-Mixupを提案する。
C-Mixupは6.56%、4.76%、5.82%の改善、タスクの一般化、アウト・オブ・ディストリビューションの堅牢性を実現している。
論文 参考訳(メタデータ) (2022-10-11T20:39:38Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - MixRL: Data Mixing Augmentation for Regression using Reinforcement
Learning [2.1345682889327837]
データ拡張のための既存のテクニックは、主に分類タスクに焦点を当てており、回帰タスクに簡単には適用できない。
その結果,大容量データとラベル距離の混合がモデル性能に悪影響を及ぼす可能性が示唆された。
そこで本研究では,データ拡張メタ学習フレームワークであるMixRLを提案する。
論文 参考訳(メタデータ) (2021-06-07T07:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。