論文の概要: Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice
- arxiv url: http://arxiv.org/abs/2512.24503v1
- Date: Tue, 30 Dec 2025 23:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.505776
- Title: Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice
- Title(参考訳): 小さなトレーニングはデータキュレーションを確実にガイドできるか? プロキシモデルの実践を再考する
- Authors: Jiachen T. Wang, Tong Wu, Kaifeng Lyu, James Zou, Dawn Song, Ruoxi Jia, Prateek Mittal,
- Abstract要約: データ品質に関する実験結果が、ハイパーパラメータのトレーニングに微調整を加えることで、反転できることを示す。
評価プロトコルに簡単なパッチを導入し、プロキシモデルのトレーニングに学習率を削減した。
実験により,データキュレーションの4つの重要な次元をカバーする23種類のデータレシピに対して,このアプローチを検証した。
- 参考スコア(独自算出の注目度): 109.9635246405237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data teams at frontier AI companies routinely train small proxy models to make critical decisions about pretraining data recipes for full-scale training runs. However, the community has a limited understanding of whether and when conclusions drawn from small-scale experiments reliably transfer to full-scale model training. In this work, we uncover a subtle yet critical issue in the standard experimental protocol for data recipe assessment: the use of identical small-scale model training configurations across all data recipes in the name of "fair" comparison. We show that the experiment conclusions about data quality can flip with even minor adjustments to training hyperparameters, as the optimal training configuration is inherently data-dependent. Moreover, this fixed-configuration protocol diverges from full-scale model development pipelines, where hyperparameter optimization is a standard step. Consequently, we posit that the objective of data recipe assessment should be to identify the recipe that yields the best performance under data-specific tuning. To mitigate the high cost of hyperparameter tuning, we introduce a simple patch to the evaluation protocol: using reduced learning rates for proxy model training. We show that this approach yields relative performance that strongly correlates with that of fully tuned large-scale LLM pretraining runs. Theoretically, we prove that for random-feature models, this approach preserves the ordering of datasets according to their optimal achievable loss. Empirically, we validate this approach across 23 data recipes covering four critical dimensions of data curation, demonstrating dramatic improvements in the reliability of small-scale experiments.
- Abstract(参考訳): フロンティアAI企業のデータチームは、定期的に小さなプロキシモデルをトレーニングし、本格的なトレーニング実行のためのデータレシピの事前トレーニングに関する決定を下す。
しかし、小規模実験から得られた結論が本格的なモデルトレーニングに確実に移行するかどうかについては、コミュニティは限定的な理解を持っている。
本研究では、データレシピアセスメントのための標準的な実験プロトコルにおける微妙ながら重要な問題を明らかにする。
最適なトレーニング構成は本質的にデータ依存であるため、データ品質に関する実験結果が、ハイパーパラメータのトレーニングに微調整を加えることで、フリップ可能であることを示す。
さらに、この固定構成プロトコルは、ハイパーパラメータ最適化が標準的なステップであるフルスケールのモデル開発パイプラインから分岐する。
その結果、データ固有のチューニングの下で最高のパフォーマンスをもたらすレシピを特定することが、データレシピアセスメントの目的であると仮定する。
ハイパーパラメータチューニングの高コスト化を図るため,評価プロトコルに簡単なパッチを導入する。
提案手法は, 大規模LLMプレトレーニングランと強く相関する相対的性能を示す。
理論的には、ランダムなモデルでは、最適な達成可能な損失に応じてデータセットの順序を保ちます。
データキュレーションの4つの重要な側面をカバーする23種類のデータレシピに対して,本手法を実証的に検証し,小規模実験の信頼性を劇的に向上させた。
関連論文リスト
- Optimizing the Training Diet: Data Mixture Search for Robust Time Series Forecasting [0.8665758002017515]
データセットを考える場合、いくつかのケースでは"なしはそれ以上"であることが示されます。
本稿では,大規模・未ラベルの時系列コーパスから最適な「トレーニングダイエット」を発見するための枠組みを提案する。
論文 参考訳(メタデータ) (2025-12-12T13:26:07Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - Dataset Pruning: Reducing Training Data by Examining Generalization
Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文 参考訳(メタデータ) (2022-05-19T05:36:35Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。