論文の概要: Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training
- arxiv url: http://arxiv.org/abs/2512.08894v1
- Date: Tue, 09 Dec 2025 18:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.09333
- Title: Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training
- Title(参考訳): 大規模言語モデル学習における下流メトリクスのスケーリング特性の再検討
- Authors: Jakub Krajewski, Amitis Shidani, Dan Busbridge, Sam Wiseman, Jason Ramapuram,
- Abstract要約: トレーニング予算からベンチマークパフォーマンスのスケーリングをモデル化するための直接的なフレームワークを提案する。
その結果, 直接的アプローチは従来提案していた2段階の手順よりも優れていることがわかった。
事前学習損失と下流評価結果の完全なセットを公表する。
- 参考スコア(独自算出の注目度): 11.179110411255708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While scaling laws for Large Language Models (LLMs) traditionally focus on proxy metrics like pretraining loss, predicting downstream task performance has been considered unreliable. This paper challenges that view by proposing a direct framework to model the scaling of benchmark performance from the training budget. We find that for a fixed token-to-parameter ratio, a simple power law can accurately describe the scaling behavior of log accuracy on multiple popular downstream tasks. Our results show that the direct approach extrapolates better than the previously proposed two-stage procedure, which is prone to compounding errors. Furthermore, we introduce functional forms that predict accuracy across token-to-parameter ratios and account for inference compute under repeated sampling. We validate our findings on models with up to 17B parameters trained on up to 350B tokens across two dataset mixtures. To support reproducibility and encourage future research, we release the complete set of pretraining losses and downstream evaluation results.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリング法則は、従来、損失の事前トレーニングのようなプロキシメトリクスに重点を置いていたが、下流のタスクパフォーマンスの予測は信頼性が低いと考えられてきた。
本稿では、トレーニング予算からベンチマークパフォーマンスのスケーリングをモデル化する直接的なフレームワークを提案することにより、この視点を課題とする。
固定されたトークン/パラメータ比では、複数のダウンストリームタスクにおけるログ精度のスケーリング挙動を、単純なパワー法則で正確に記述できることがわかった。
以上の結果から,提案した2段階の手順よりも直接的アプローチが優れていることが示唆された。
さらに,トークン対パラメータ比の精度を予測する関数形式を導入し,繰り返しサンプリングによる推論計算について考察する。
最大17Bのパラメータが2つのデータセットをまたいだ最大350Bのトークンでトレーニングされたモデルで、この結果を検証する。
再現性をサポートし,今後の研究を促進するために,事前学習した損失と下流評価結果の完全なセットを公表する。
関連論文リスト
- Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [42.608899417822656]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。
本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文 参考訳(メタデータ) (2025-04-16T21:19:09Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
我々は,既存の勾配法を改良し,大規模に効果的に機能させる。
我々は、インプロンプトセットとモデルアウトプットをWebベースの可視化ツールとともにリリースし、影響力のある例を探索します。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。