論文の概要: DataDecide: How to Predict Best Pretraining Data with Small Experiments
- arxiv url: http://arxiv.org/abs/2504.11393v1
- Date: Tue, 15 Apr 2025 17:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:46.765002
- Title: DataDecide: How to Predict Best Pretraining Data with Small Experiments
- Title(参考訳): DataDecide:小さな実験で最適な事前トレーニングデータの予測方法
- Authors: Ian Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge,
- Abstract要約: 私たちはDataDecideのモデル、データ、評価を公開しています。
最大100Bトークン,最大1Bパラメータのモデルサイズ,および3つのランダムシードを用いて,25コーパスにわたる事前学習実験を行った。
- 参考スコア(独自算出の注目度): 67.95896457895404
- License:
- Abstract: Because large language models are expensive to pretrain on different datasets, using smaller-scale experiments to decide on data is crucial for reducing costs. Which benchmarks and methods of making decisions from observed performance at small scale most accurately predict the datasets that yield the best large models? To empower open exploration of this question, we release models, data, and evaluations in DataDecide -- the most extensive open suite of models over differences in data and scale. We conduct controlled pretraining experiments across 25 corpora with differing sources, deduplication, and filtering up to 100B tokens, model sizes up to 1B parameters, and 3 random seeds. We find that the ranking of models at a single, small size (e.g., 150M parameters) is a strong baseline for predicting best models at our larger target scale (1B) (~80% of com parisons correct). No scaling law methods among 8 baselines exceed the compute-decision frontier of single-scale predictions, but DataDecide can measure improvement in future scaling laws. We also identify that using continuous likelihood metrics as proxies in small experiments makes benchmarks including MMLU, ARC, HellaSwag, MBPP, and HumanEval >80% predictable at the target 1B scale with just 0.01% of the compute.
- Abstract(参考訳): 大規模な言語モデルは、異なるデータセットで事前トレーニングする費用がかかるため、データを決定するための小規模な実験を使用することは、コスト削減に不可欠である。
小さなスケールで観察されたパフォーマンスから決定を下すためのベンチマークと手法は、最も優れた大規模モデルを生み出すデータセットを最も正確に予測しますか?
この問題をオープンに調査するために、私たちはDataDecideのモデル、データ、評価を公開しています。
最大100Bトークン,最大1Bパラメータのモデルサイズ,および3つのランダムシードを用いて,25コーパスにわたる事前学習実験を行った。
一つの小さなサイズのモデル(例えば、1億5000万のパラメータ)のランキングは、我々のより大きなターゲットスケール(1B)で最高のモデルを予測するための強力なベースラインである(コンパゾンの約80%が正しい)。
8つのベースライン間のスケーリング法則は、単一スケール予測の計算精度フロンティアを超えないが、DataDecideは将来のスケーリング法則の改善を測定することができる。
また,小型実験において連続度測定をプロキシとして用いることで,目標1BスケールでMMLU,ARC,HellaSwag,MBPP,HumanEval >80%のベンチマークが計算の0.01%で予測可能であることも確認した。
関連論文リスト
- Scaling Laws for Forgetting during Finetuning with Pretraining Data Injection [37.65064631532493]
対象領域のデータに対する教師なし予測を行うために、事前訓練されたモデルを微調整することは、2つの課題を示す。
我々は,事前学習データを微調整データ混合物に注入する効率を計測し,過度な適合を回避し,過度な適合を緩和する。
本研究の実際的な特徴は、微調整データ混合物に1%の事前学習データを注入することで、事前学習セットを忘れないようにすることである。
論文 参考訳(メタデータ) (2025-02-09T21:44:27Z) - Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Does your data spark joy? Performance gains from domain upsampling at the end of training [16.572129046599937]
大規模なFLモデルスケールでのトレーニングにおけるドメイン固有のデータセットの影響を理解することは、費用がかかる。
ドメインアップサンプリングを使用して、さまざまなベンチマークを改善するために、個々のデータセットの有用性を大規模に特徴付ける。
このツールは、さまざまな事前トレーニングデータセットの影響を大規模に実験する機能を開放するが、完全な事前トレーニング実行に比べてコストが低い。
論文 参考訳(メタデータ) (2024-06-05T17:29:15Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - A Probabilistic Method to Predict Classifier Accuracy on Larger Datasets
given Small Pilot Data [4.076366901873452]
分類器を構築する実践者は、多くの場合、より小さなパイロットデータセットから始まり、近い将来、より大きなデータに成長する計画である。
このようなプロジェクトには,データサイズが2倍,10倍,50倍の精度で向上するツールキットが必要だ。
本稿では,データセットのサイズが大きくなるにつれて,精度や類似のパフォーマンス指標の確率論的外挿を求めるプロセスモデルを提案する。
論文 参考訳(メタデータ) (2023-11-29T19:10:15Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - On Anytime Learning at Macroscale [33.674452784463774]
多くの実用的なアプリケーションでは、データが一度に到着するのではなく、時間の経過とともにバッチになる。
欲求予測器は、これらが利用可能になったらすぐにバッチでトレーニングすることで、非自明な予測を生成することができるが、将来のデータの準最適利用も可能かもしれない。
荒々しい予測器は、複数のバッチをより大きなデータセットに集約するのに長い時間を要するが、最終的にははるかに優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2021-06-17T14:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。