論文の概要: RegMix: Data Mixture as Regression for Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2407.01492v1
- Date: Mon, 1 Jul 2024 17:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 20:31:30.921487
- Title: RegMix: Data Mixture as Regression for Language Model Pre-training
- Title(参考訳): RegMix: 言語モデル事前トレーニングの回帰としてのデータ混合
- Authors: Qian Liu, Xiaosen Zheng, Niklas Muennighoff, Guangtao Zeng, Longxu Dou, Tianyu Pang, Jing Jiang, Min Lin,
- Abstract要約: 本稿では,レグレッションタスクとして定式化することで,ハイパフォーマンスなデータ混合物を自動的に識別するRegMixを提案する。
RegMixでは、さまざまなデータ混在の小さなモデルのセットをトレーニングし、レグレッションモデルを適用してパフォーマンスを予測する。
提案手法は,人間の選択に比較して優れた性能を示し,DoReMiに匹敵する結果を得る。
- 参考スコア(独自算出の注目度): 40.45464495981735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The data mixture for large language model pre-training significantly impacts performance, yet how to determine an effective mixture remains unclear. We propose RegMix to automatically identify a high-performing data mixture by formulating it as a regression task. RegMix involves training a set of small models with diverse data mixtures and fitting a regression model to predict their performance given their respective mixtures. With the fitted regression model, we simulate the top-ranked mixture and use it to train a large-scale model with orders of magnitude more compute. To empirically validate RegMix, we train 512 models with 1M parameters for 1B tokens of different mixtures to fit the regression model and find the optimal mixture. Using this mixture we train a 1B parameter model for 25B tokens (i.e. 1000x larger and 25x longer) which we find performs best among 64 candidate 1B parameter models with other mixtures. Further, our method demonstrates superior performance compared to human selection and achieves results that match or surpass DoReMi, while utilizing only 10% of the compute budget. Our experiments also show that (1) Data mixtures significantly impact performance with single-task performance variations of up to 14.6%; (2) Web corpora rather than data perceived as high-quality like Wikipedia have the strongest positive correlation with downstream performance; (3) Domains interact in complex ways often contradicting common sense, thus automatic approaches like RegMix are needed; (4) Data mixture effects transcend scaling laws, and our approach captures the complexity by considering all domains together. Our code is available at https://github.com/sail-sg/regmix.
- Abstract(参考訳): 大規模言語モデルの事前学習のためのデータ混合は、性能に大きな影響を及ぼすが、有効混合を決定する方法はまだ不明である。
本稿では,レグレッションタスクとして定式化することで,ハイパフォーマンスなデータ混合物を自動的に識別するRegMixを提案する。
RegMixでは、さまざまなデータ混在の小さなモデルのセットをトレーニングし、それぞれの混合からパフォーマンスを予測するために回帰モデルを適合させる。
適応回帰モデルを用いて、トップランクの混合物をシミュレートし、それを用いて、桁違いの計算量で大規模モデルを訓練する。
RegMixを実証的に検証するために、異なる混合の1Bトークンに対して1Mパラメータを持つ512モデルをトレーニングし、回帰モデルに適合させ、最適な混合を見つける。
この混合を用いて、25Bトークン(すなわち1000倍大きく25倍長い)に対して1Bパラメータモデルを訓練し、64個の候補1Bパラメータモデルと他の混合品の間で最高の性能を示す。
さらに,本手法は,人間の選択よりも優れた性能を示し,計算予算の10%を生かしながら,DoReMiと一致するか上回る結果を得る。
実験の結果,(1)単一タスクのパフォーマンス変化によるデータ混合が最大14.6%,(2) 高品質と認識されるデータよりもWebコーパスがダウンストリームのパフォーマンスに強い正の相関性を持っていること,(3) ドメイン間の相互作用が共通認識と矛盾することが多いこと,(4) データの混合効果がスケーリング法を超越すること,そして我々のアプローチは,すべてのドメインを一緒に考えることで複雑さを捉えていることがわかった。
私たちのコードはhttps://github.com/sail-sg/regmix.comで利用可能です。
関連論文リスト
- RC-Mixup: A Data Augmentation Strategy against Noisy Data for Regression Tasks [27.247270530020664]
本研究では,ノイズの多いデータの存在下での回帰作業におけるロバストなデータ拡張の問題について検討する。
C-Mixupは、レグレッションパフォーマンスを改善するためにラベル距離に基づいてサンプルを混合する、より選択的である。
本稿では,C-Mixupとマルチラウンドロバストな学習手法を密接に統合し,シナジスティックな効果を示すRC-Mixupを提案する。
論文 参考訳(メタデータ) (2024-05-28T08:02:42Z) - BiMix: Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。
$textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。
我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文 参考訳(メタデータ) (2024-05-23T09:44:02Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - C-Mixup: Improving Generalization in Regression [71.10418219781575]
混合アルゴリズムは、一対の例とその対応するラベルを線形補間することによって一般化を改善する。
ラベルの類似度に基づいてサンプリング確率を調整するC-Mixupを提案する。
C-Mixupは6.56%、4.76%、5.82%の改善、タスクの一般化、アウト・オブ・ディストリビューションの堅牢性を実現している。
論文 参考訳(メタデータ) (2022-10-11T20:39:38Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - MixRL: Data Mixing Augmentation for Regression using Reinforcement
Learning [2.1345682889327837]
データ拡張のための既存のテクニックは、主に分類タスクに焦点を当てており、回帰タスクに簡単には適用できない。
その結果,大容量データとラベル距離の混合がモデル性能に悪影響を及ぼす可能性が示唆された。
そこで本研究では,データ拡張メタ学習フレームワークであるMixRLを提案する。
論文 参考訳(メタデータ) (2021-06-07T07:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。