論文の概要: Prescriptive Scaling Reveals the Evolution of Language Model Capabilities
- arxiv url: http://arxiv.org/abs/2602.15327v1
- Date: Tue, 17 Feb 2026 03:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.968428
- Title: Prescriptive Scaling Reveals the Evolution of Language Model Capabilities
- Title(参考訳): プリメンティブスケーリングが言語モデル能力の進化を明らかに
- Authors: Hanlin Zhang, Jikai Jin, Vasilis Syrgkanis, Sham Kakade,
- Abstract要約: 我々は、ログ事前学習FLOPの関数として、機能境界、ベンチマークスコアの高条件量子化を推定する。
我々は、初期のモデル世代に適合し、後のリリースを評価することで、時間的信頼性を検証する。
本稿では,評価予算の約20%を用いて,全データフロンティア付近を復元する効率的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 22.14002750185524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For deploying foundation models, practitioners increasingly need prescriptive scaling laws: given a pre training compute budget, what downstream accuracy is attainable with contemporary post training practice, and how stable is that mapping as the field evolves? Using large scale observational evaluations with 5k observational and 2k newly sampled data on model performance, we estimate capability boundaries, high conditional quantiles of benchmark scores as a function of log pre training FLOPs, via smoothed quantile regression with a monotone, saturating sigmoid parameterization. We validate the temporal reliability by fitting on earlier model generations and evaluating on later releases. Across various tasks, the estimated boundaries are mostly stable, with the exception of math reasoning that exhibits a consistently advancing boundary over time. We then extend our approach to analyze task dependent saturation and to probe contamination related shifts on math reasoning tasks. Finally, we introduce an efficient algorithm that recovers near full data frontiers using roughly 20% of evaluation budget. Together, our work releases the Proteus 2k, the latest model performance evaluation dataset, and introduces a practical methodology for translating compute budgets into reliable performance expectations and for monitoring when capability boundaries shift across time.
- Abstract(参考訳): 基礎モデルをデプロイするためには、規範的なスケーリング法がますます必要になる。事前のトレーニング計算予算が与えられた場合、現代のポストトレーニングの実践で下流の精度が達成できるか、フィールドが進化するにつれて、そのマッピングはどの程度安定しているか?
モデル性能に関する5k観測データと2kサンプルデータを用いた大規模観測評価を用いて,Sigmoidパラメータ化を飽和させたモノトーンを用いたスムーズな量子化回帰法を用いて,ログ事前トレーニングFLOPの関数として,性能境界,ベンチマークスコアの高条件量子化を推定する。
我々は、初期のモデル世代に適合し、後のリリースを評価することで、時間的信頼性を検証する。
様々なタスクにおいて、推定された境界は、時間とともに一貫して進行する境界を示す数学的推論を除いて、ほぼ安定である。
次に、タスク依存飽和を分析し、数学推論タスクにおける汚染関連シフトを探索するために、我々のアプローチを拡張した。
最後に,評価予算の約20%を用いて,全データフロンティア付近を復元する効率的なアルゴリズムを提案する。
我々の研究は、最新のモデルパフォーマンス評価データセットであるProteus 2kをリリースし、計算予算を信頼性の高いパフォーマンス期待に変換する実践的な方法論を導入し、時間とともに機能境界が変化した際のモニタリングを行ないました。
関連論文リスト
- Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training [11.179110411255708]
トレーニング予算からベンチマークパフォーマンスのスケーリングをモデル化するための直接的なフレームワークを提案する。
その結果, 直接的アプローチは従来提案していた2段階の手順よりも優れていることがわかった。
事前学習損失と下流評価結果の完全なセットを公表する。
論文 参考訳(メタデータ) (2025-12-09T18:33:48Z) - OEUVRE: OnlinE Unbiased Variance-Reduced loss Estimation [23.762163604982366]
我々は,現在および過去の時間ステップで学習した関数に対して,各入力サンプルを評価する推定器であるOEUVREを紹介する。
アルゴリズムの安定性は、多くのオンライン学習者が満足する特性であり、最適な更新、一貫性の証明、収束率、そして推定器の集中バウンドである。
論文 参考訳(メタデータ) (2025-10-26T16:41:17Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting [18.018179328110048]
スペクトルコヒーレンスに基づく予測可能性整合診断フレームワークを提案する。
予測可能性ドリフト(predictability drift, 予測可能性ドリフト)の最初の体系的な証拠として, タスクの予測困難度が時間とともに急激に変化することを示す。
複雑なモデルは予測可能性の低いデータより優れているのに対し、線形モデルは予測可能なタスクに非常に効果的である。
論文 参考訳(メタデータ) (2025-09-27T02:56:06Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,リトレーニングを繰り返して安定なモデル列を見つけるためのモデルに依存しないフレームワークを提案する。
最適モデルの復元が保証される混合整数最適化の定式化を開発する。
平均的に、予測力の2%の低下は、安定性の30%の改善につながることが判明した。
論文 参考訳(メタデータ) (2024-03-28T22:45:38Z) - Bayesian Deep Learning for Remaining Useful Life Estimation via Stein
Variational Gradient Descent [14.784809634505903]
本研究では,スタイン変分勾配勾配を用いたベイズ学習モデルが収束速度と予測性能に対して一貫して優れていたことを示す。
ベイズモデルが提供する不確実性情報に基づく性能向上手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T02:21:06Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Confidence Adaptive Anytime Pixel-Level Recognition [86.75784498879354]
任意の時間推論は、いつでも停止される可能性のある予測の進行を行うモデルを必要とする。
我々は,任意のピクセルレベルの認識に対して,最初の統一とエンドツーエンドのモデルアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-01T20:01:57Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。