論文の概要: Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2405.14908v1
- Date: Thu, 23 May 2024 09:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 19:48:22.513449
- Title: Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining
- Title(参考訳): データの混合が効率的になった: 言語モデルの事前学習のための二変量スケーリング法
- Authors: Ce Ge, Zhijian Ma, Daoyuan Chen, Yaliang Li, Bolin Ding,
- Abstract要約: 本研究は、データ混合物の低コストプロキシに基づく戦略を検証することによって、制限に対処する。
データ量と混合比の2変量スケーリング挙動を正確にモデル化する統合スケーリング法、BiMixを提案する。
特に,エントロピー駆動のトレーニングフリーなデータ混合は,リソース集約的な手法に比べて,同等あるいはそれ以上のパフォーマンスを達成できることがわかった。
- 参考スコア(独自算出の注目度): 47.77701041534746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models exhibit exceptional generalization capabilities, primarily attributed to the utilization of diversely sourced data. However, conventional practices in integrating this diverse data heavily rely on heuristic schemes, lacking theoretical guidance. This research tackles these limitations by investigating strategies based on low-cost proxies for data mixtures, with the aim of streamlining data curation to enhance training efficiency. Specifically, we propose a unified scaling law, termed BiMix, which accurately models the bivariate scaling behaviors of both data quantity and mixing proportions. We conduct systematic experiments and provide empirical evidence for the predictive power and fundamental principles of BiMix. Notably, our findings reveal that entropy-driven training-free data mixtures can achieve comparable or even better performance than more resource-intensive methods. We hope that our quantitative insights can shed light on further judicious research and development in cost-effective language modeling.
- Abstract(参考訳): 大規模言語モデルは、多種多様なソースデータの利用に起因して、例外的な一般化能力を示す。
しかし、これらの多様なデータを統合する慣習は、理論的なガイダンスを欠いたヒューリスティックなスキームに大きく依存している。
本研究は、データキュレーションを合理化してトレーニング効率を向上させることを目的として、データ混合物の低コストプロキシに基づく戦略を検証することにより、これらの制限に対処する。
具体的には、データ量と混合比の2変量スケーリング挙動を正確にモデル化する、BiMixと呼ばれる統一スケーリング法を提案する。
我々は,BiMixの予測力と基本原理について,系統的な実験を行い,実証的な証拠を提供する。
特に,エントロピー駆動のトレーニングフリーなデータ混合は,リソース集約的な手法に比べて,同等あるいはそれ以上のパフォーマンスを達成できることがわかった。
我々は、我々の定量的洞察が、コスト効率のよい言語モデリングにおけるさらなる司法研究と開発に光を当てることを願っている。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では,ベイズ最適化を用いたデータ選択手法を組み込むことで,フィードバックループを活用できるDUETという,グローバル・ローカルなアルゴリズムを提案する。
その結果、DUETは、データドメインのプールから混合したトレーニングデータを効率よく洗練し、目に見えない評価タスクにおけるモデルの性能を最大化することができる。
論文 参考訳(メタデータ) (2025-02-01T01:52:32Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。
我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - TiMix: Text-aware Image Mixing for Effective Vision-Language
Pre-training [42.142924806184425]
クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。
TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-14T12:02:24Z) - Mixed Semi-Supervised Generalized-Linear-Regression with Applications to Deep-Learning and Interpolators [6.537685198688539]
本稿では、ラベルのないデータを用いて、半教師付き学習法(SSL)を設計する手法を提案する。
それぞれに$alpha$という混合パラメータが含まれており、ラベルのないデータに与えられる重みを制御する。
我々は,標準教師付きモデルと比較して,大幅な改善を実現するための方法論の有効性を実証する。
論文 参考訳(メタデータ) (2023-02-19T09:55:18Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。