論文の概要: Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2405.14908v2
- Date: Thu, 11 Jul 2024 08:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 22:37:59.550377
- Title: Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining
- Title(参考訳): データの混合が効率的になった: 言語モデルの事前学習のための二変量スケーリング法
- Authors: Ce Ge, Zhijian Ma, Daoyuan Chen, Yaliang Li, Bolin Ding,
- Abstract要約: 本研究は、データ混合物の低コストプロキシに基づく戦略を検証することによって、制限に対処する。
我々は、データ量と混合比率の両方を正確にモデル化する、$textbfBiMix$と呼ばれる統一スケーリング法を提案する。
この結果から,エントロピー駆動のトレーニングフリーなデータ混合は,資源集約的な手法よりも同等あるいはそれ以上の性能を達成できることがわかった。
- 参考スコア(独自算出の注目度): 47.77701041534746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models exhibit exceptional generalization capabilities, primarily attributed to the utilization of diversely sourced data. However, conventional practices in integrating this diverse data heavily rely on heuristic schemes, lacking theoretical guidance. This research tackles these limitations by investigating strategies based on low-cost proxies for data mixtures, with the aim of streamlining data curation to enhance training efficiency. Specifically, we propose a unified scaling law, termed $\textbf{BiMix}$, which accurately models the bivariate scaling behaviors of both data quantity and mixing proportions. We conduct systematic experiments and provide empirical evidence for the predictive power and fundamental principles of $\textbf{BiMix}$. Notably, our findings reveal that entropy-driven training-free data mixtures can achieve comparable or even better performance than more resource-intensive methods. We hope that our quantitative insights can shed light on further judicious research and development in cost-effective language modeling.
- Abstract(参考訳): 大規模言語モデルは、多種多様なソースデータの利用に起因して、例外的な一般化能力を示す。
しかし、これらの多様なデータを統合する慣習は、理論的なガイダンスを欠いたヒューリスティックなスキームに大きく依存している。
本研究は、データキュレーションを合理化してトレーニング効率を向上させることを目的として、データ混合物の低コストプロキシに基づく戦略を検証することにより、これらの制限に対処する。
具体的には、データ量と混合比の2変量スケーリング挙動を正確にモデル化する、$\textbf{BiMix}$という統一スケーリング法則を提案する。
体系的な実験を行い、予測力と$\textbf{BiMix}$の基本的な原理の実証的な証拠を提供する。
特に,エントロピー駆動のトレーニングフリーなデータ混合は,リソース集約的な手法に比べて,同等あるいはそれ以上のパフォーマンスを達成できることがわかった。
我々は、我々の定量的洞察が、コスト効率のよい言語モデリングにおけるさらなる司法研究と開発に光を当てることを願っている。
関連論文リスト
- On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。
我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - TiMix: Text-aware Image Mixing for Effective Vision-Language
Pre-training [42.142924806184425]
クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。
TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-14T12:02:24Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Mixed Semi-Supervised Generalized-Linear-Regression with applications to Deep-Learning and Interpolators [6.537685198688539]
本稿では、ラベルのないデータを用いて、半教師付き学習法(SSL)を設計する手法を提案する。
それぞれに$alpha$という混合パラメータが含まれており、ラベルのないデータに与えられる重みを制御する。
我々は,標準教師付きモデルと比較して,大幅な改善を実現するための方法論の有効性を実証する。
論文 参考訳(メタデータ) (2023-02-19T09:55:18Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。
新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。
シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文 参考訳(メタデータ) (2020-10-20T16:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。