論文の概要: Scaling Laws Revisited: Modeling the Role of Data Quality in Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2510.03313v1
- Date: Tue, 30 Sep 2025 22:45:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.743587
- Title: Scaling Laws Revisited: Modeling the Role of Data Quality in Language Model Pretraining
- Title(参考訳): スケーリング法則の再考: 言語モデルの事前学習におけるデータ品質の役割のモデル化
- Authors: Anirudh Subramanyam, Yuxin Chen, Robert L. Grossman,
- Abstract要約: 本稿では,モデルサイズ,データボリューム,データ品質の結合関数として損失を予測するため,Chinchillaフレームワークを拡張した品質対応スケーリング法を提案する。
データ品質による損失スケールが予測可能であり,高品質なデータにより,モデルサイズを大幅に削減し,従って計算要求を低減できることを示す。
- 参考スコア(独自算出の注目度): 13.89166201149496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling laws for language model training traditionally characterize how performance scales with model size and dataset volume. Prior work has explored architecture variants and data treatments such as dataset filtering and noise injection in language model pretraining; however, these studies have not formalized data quality within a principled scaling law. We introduce a dimensionless data-quality parameter Q, and propose a quality-aware scaling law extending the Chinchilla framework to predict loss as a joint function of model size, data volume, and data quality. The law is motivated by an effective-sample-size and information-theoretic view of noisy or redundant corpora, and it admits two practical estimators for Q: (i) a corruption rate proxy and (ii) a deficiency measure. Through synthetic experiments in neural machine translation and autoregressive modeling -- where we systematically control data quality via multiple levels of noise injection and coverage variation -- we show that loss scales predictably with data quality and that higher-quality data can substantially reduce model size and hence compute requirements. Our results demonstrate a sublinear decay of effective data with quality and robustness to moderate data corruption; out-of-sample evaluations further validate the predictive form of the law. Unlike prior empirical analyses, our work establishes an explicit, generalizable law for data quality, offering concrete guidance for balancing data curation effort and model scale in large-scale pretraining.
- Abstract(参考訳): 言語モデルトレーニングのスケーリング法則は、伝統的に、モデルのサイズとデータセットのボリュームによるパフォーマンスのスケーリングを特徴付ける。
以前の研究は、データセットフィルタリングや言語モデル事前学習におけるノイズ注入のようなアーキテクチャのバリエーションやデータ処理について検討してきたが、これらの研究は、原則化されたスケーリング法則の中では、データ品質を形式化していない。
我々は、次元のないデータ品質パラメータQを導入し、モデルサイズ、データボリューム、データ品質の結合関数として損失を予測するために、Chinchillaフレームワークを拡張した品質対応スケーリング法を提案する。
この法則は、雑音や冗長コーパスの有効サンプルサイズと情報理論的な視点によって動機付けられており、Qに対する2つの実用的な推定方法が認められている。
(i)汚職率プロキシ及び汚職率プロキシ
(ii)不足対策
ニューラルマシン翻訳と自己回帰モデリングの合成実験を通じて、複数のレベルのノイズ注入とカバレッジ変動を通じて、データ品質を体系的に制御することで、データ品質による損失スケールが予測可能であり、高品質なデータによってモデルのサイズが大幅に削減され、従って計算要求が大幅に削減されることを示した。
以上の結果から, 有効データの品質とロバスト性, 適度なデータ汚損に対する準線形崩壊が示され, アウト・オブ・サンプル評価により, 法則の予測形式がさらに検証された。
従来の実証分析と異なり、我々の研究はデータ品質に関する明示的で一般化可能な法則を確立し、大規模事前学習におけるデータキュレーションの取り組みとモデルスケールのバランスをとるための具体的なガイダンスを提供する。
関連論文リスト
- Model State Arithmetic for Machine Unlearning [43.773053236733425]
我々は,データポイントの影響を推定し,解消するための新しいアルゴリズムであるMSAを提案する。
実験の結果、MSAは既存の機械学習アルゴリズムよりずっと優れています。
論文 参考訳(メタデータ) (2025-06-26T02:16:16Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。
我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文 参考訳(メタデータ) (2025-01-03T19:28:53Z) - A Conformal Approach to Feature-based Newsvendor under Model Misspecification [2.801095519296785]
共形予測にインスパイアされたモデルフリーで分散フリーなフレームワークを提案する。
ワシントンD.C.のCapital Bikeshareプログラムのシミュレーションデータと実世界のデータセットを用いて,我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2024-12-17T18:34:43Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Scaling Parameter-Constrained Language Models with Quality Data [32.35610029333478]
言語モデリングにおける法則のスケーリングは、伝統的にデータセットのサイズとモデルパラメータの関数としてトレーニング損失を定量化する。
我々は,従来のスケーリング法則の理解を,元の定式化におけるデータ品質の微視的なビューを提供することによって拡張する。
論文 参考訳(メタデータ) (2024-10-04T02:07:17Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。