論文の概要: Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale
- arxiv url: http://arxiv.org/abs/2409.17115v1
- Date: Wed, 25 Sep 2024 17:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 02:44:18.294953
- Title: Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale
- Title(参考訳): あらゆる例をプログラミングする: 大規模専門家のような事前学習されたデータ品質
- Authors: Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu,
- Abstract要約: 我々は、データ精錬をプログラミングタスクとして扱う新しいフレームワーク、ProX(Programming Every Example)を紹介します。
実験結果から, ProX処理データ上で事前学習したモデルは, 元のデータか, 他の選択手法でフィルタリングしたデータよりも2%以上優れていた。
われわれは100Bコーパス、モデルと共にProXをオープンソース化し、再現可能な研究と将来のイノベーションのためのトレーニングと実装の詳細をすべて共有しています。
- 参考スコア(独自算出の注目度): 40.74670842558923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model pre-training has traditionally relied on human experts to craft heuristics for improving the corpora quality, resulting in numerous rules developed to date. However, these rules lack the flexibility to address the unique characteristics of individual example effectively. Meanwhile, applying tailored rules to every example is impractical for human experts. In this paper, we demonstrate that even small language models, with as few as 0.3B parameters, can exhibit substantial data refining capabilities comparable to those of human experts. We introduce Programming Every Example (ProX), a novel framework that treats data refinement as a programming task, enabling models to refine corpora by generating and executing fine-grained operations, such as string normalization, for each individual example at scale. Experimental results show that models pre-trained on ProX-curated data outperform either original data or data filtered by other selection methods by more than 2% across various downstream benchmarks. Its effectiveness spans various model sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb. Furthermore, ProX exhibits significant potential in domain-specific continual pre-training: without domain specific design, models trained on OpenWebMath refined by ProX outperform human-crafted rule-based methods, improving average accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B trained on 200B tokens. Further analysis highlights that ProX significantly saves training FLOPs, offering a promising path for efficient LLM pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing all training and implementation details for reproducible research and future innovation. Code: https://github.com/GAIR-NLP/ProX
- Abstract(参考訳): 大規模な言語モデルの事前訓練は、伝統的に、コーパスの品質を改善するためにヒューリスティックスを構築するために、人間の専門家に頼ってきた。
しかし、これらのルールは個々の例の特徴に効果的に対処する柔軟性を欠いている。
一方、すべての例に調整されたルールを適用することは、人間の専門家にとって現実的ではない。
本稿では, 最大0.3Bのパラメータを持つ小さな言語モデルであっても, 人間の専門家に匹敵する実質的なデータ精錬能力を示すことを示す。
本稿では,データ精細化をプログラミングタスクとして扱う新しいフレームワークであるProXを紹介し,文字列正規化などの細粒度操作を大規模に生成・実行することで,コーパスの精細化を可能にする。
実験結果から, ProX処理データ上で事前学習したモデルは, 様々なダウンストリームベンチマークにおいて, 元のデータ, あるいは他の選択手法でフィルタリングしたデータよりも2%以上優れていた。
その効果は、C4、RedPajama-V2、FineWebなど、さまざまなモデルサイズと事前トレーニングコーパスにまたがる。
さらに、ProXはドメイン特化設計なしで、OpenWebMathで訓練されたモデルは、人造ルールベースの手法より優れており、Mistral-7Bよりも平均精度が7.6%向上し、Llama-2-7Bは14.6%、CodeLlama-7Bは20.3%向上し、全ての10Bトークンは200Bトークンで訓練されたLlemma-7Bのようなモデルに匹敵する。
さらなる分析では、ProXはFLOPのトレーニングを大幅に削減し、効率的なLLM事前トレーニングのための有望なパスを提供し、100Bコーパス、モデルと共にProXをオープンソース化し、再現可能な研究と将来のイノベーションのためのすべてのトレーニングと実装の詳細を共有しています。
コード:https://github.com/GAIR-NLP/ProX
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Towards An Online Incremental Approach to Predict Students Performance [0.8287206589886879]
本稿では,オンライン分類器を更新するためのメモリベースのオンラインインクリメンタル学習手法を提案する。
提案手法は,現在の最先端技術と比較して10%近く向上し,モデル精度の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-05-03T17:13:26Z) - OpenELM: An Efficient Language Model Family with Open Training and Inference Framework [26.741510071520658]
私たちは最先端のオープン言語モデルであるOpenELMをリリースします。
パラメータ予算は約10億のパラメータで、OpenELMはOLMoに比べて精度が2.36%向上している。
論文 参考訳(メタデータ) (2024-04-22T23:12:03Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Dataset Pruning: Reducing Training Data by Examining Generalization
Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文 参考訳(メタデータ) (2022-05-19T05:36:35Z) - Oort: Efficient Federated Learning via Guided Participant Selection [5.01181273401802]
フェデレートラーニング(FL)は、エッジデータを用いたモデルトレーニングとテストを可能にする。
既存の取り組みでは、FL参加者をランダムに選び、モデルやシステムの効率が悪くなります。
Oortは1.2x-14.1x、最終モデルの精度を1.3%-9.8%改善した。
論文 参考訳(メタデータ) (2020-10-12T23:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。