論文の概要: Maximize Your Data's Potential: Enhancing LLM Accuracy with Two-Phase Pretraining
- arxiv url: http://arxiv.org/abs/2412.15285v1
- Date: Wed, 18 Dec 2024 18:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:48.420292
- Title: Maximize Your Data's Potential: Enhancing LLM Accuracy with Two-Phase Pretraining
- Title(参考訳): データの可能性の最大化:2相事前トレーニングによるLCMの精度向上
- Authors: Steven Feng, Shrimai Prabhumoye, Kezhi Kong, Dan Su, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro,
- Abstract要約: 本研究では,2相事前学習の概念を定式化し,モデル精度を最大化するためにデータの選択と混合方法に関する体系的研究を行う。
我々は、データソースの品質と、見るべきエポックの数に基づいて、最適なブレンドを作るための詳細なガイダンスを提供する。
1Tトークンの小さなスケールでサンプルデータを用いてブレンドを設計し、15Tトークンのより大きなトークン水平線と25Bモデルサイズへのアプローチの効果的なスケーリングを実証することを提案する。
- 参考スコア(独自算出の注目度): 39.75559743003037
- License:
- Abstract: Pretraining large language models effectively requires strategic data selection, blending and ordering. However, key details about data mixtures especially their scalability to longer token horizons and larger model sizes remain underexplored due to limited disclosure by model developers. To address this, we formalize the concept of two-phase pretraining and conduct an extensive systematic study on how to select and mix data to maximize model accuracies for the two phases. Our findings illustrate that a two-phase approach for pretraining outperforms random data ordering and natural distribution of tokens by 3.4% and 17% on average accuracies. We provide in-depth guidance on crafting optimal blends based on quality of the data source and the number of epochs to be seen. We propose to design blends using downsampled data at a smaller scale of 1T tokens and then demonstrate effective scaling of our approach to larger token horizon of 15T tokens and larger model size of 25B model size. These insights provide a series of steps practitioners can follow to design and scale their data blends.
- Abstract(参考訳): 大規模言語モデルを効果的にトレーニングするには、戦略的データの選択、ブレンディング、順序付けが必要である。
しかし、データ混在に関する重要な詳細、特により長いトークン水平線へのスケーラビリティと、モデル開発者の開示が限られているため、より大きなモデルサイズは未調査のままである。
そこで我々は,2相事前学習の概念を定式化し,2相のモデル精度を最大化するためにデータを選択・混合する方法に関する広範な体系的研究を行う。
以上の結果から, 事前学習の2段階アプローチは, 平均精度でランダムデータの順序付けとトークンの自然分布を3.4%, 17%向上させることがわかった。
我々は、データソースの品質と、見るべきエポックの数に基づいて、最適なブレンドを作るための詳細なガイダンスを提供する。
1Tトークンの小さなスケールでサンプルデータを用いてブレンドを設計し、15Tトークンのより大きなトークン水平線と25Bモデルサイズへのアプローチの効果的なスケーリングを実証することを提案する。
これらの洞察は、実践者がデータブレンドの設計とスケーリングを行うための一連のステップを提供する。
関連論文リスト
- Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - BiMix: Bivariate Data Mixing Law for Language Model Pretraining [47.77701041534746]
事前学習データ構成がモデル性能に与える影響はいまだよく分かっていない。
$textbfBiMix$は、データの混合を理解し、最適化するための体系的なフレームワークを提供する。
我々の研究は、データミキシングの力学に関する理論的知見と、LLMトレーニング効率を向上させるための実践的なツールの両方に貢献する。
論文 参考訳(メタデータ) (2024-05-23T09:44:02Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文 参考訳(メタデータ) (2024-02-16T03:39:37Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data [0.0]
生成モデルは現実的なイメージの作成に優れていますが、トレーニングのための広範なデータセットに依存しているため、大きな課題があります。
現在のデータ効率の手法はGANアーキテクチャに重点を置いており、他の生成モデルの訓練にギャップを残している。
位相データ拡張(phased data augmentation)は、このギャップに対処する新しい手法であり、データ分散に固有の変更を加えることなく、限られたデータシナリオでのトレーニングを最適化する。
論文 参考訳(メタデータ) (2023-05-22T03:38:59Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。