論文の概要: Fast and Accurate Probing of In-Training LLMs' Downstream Performances
- arxiv url: http://arxiv.org/abs/2604.01025v1
- Date: Wed, 01 Apr 2026 15:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.060184
- Title: Fast and Accurate Probing of In-Training LLMs' Downstream Performances
- Title(参考訳): イントレーニングLDMの下流性能の高速かつ高精度な探索
- Authors: Zhichen Liu, Tianle Lun, Zhibin Wen, Hao An, Yulin Ou, Jianhui Xu, Hao Zhang, Wenyi Fang, Yang Zheng, Yang Xu,
- Abstract要約: 本稿では,下流性能のモニタリングに軽量プローブを用いたイントレーニング評価パラダイムを提案する。
我々は、OLMo3-7Bのチェックポイントを用いて、複数のプローブアーキテクチャを設計し、その有効性を検証した。
プローブは、チェックポイントのパフォーマンスを正確に予測し(例えば、AUROC$>0.75)、チェックポイントをまたいで十分な一般化性を持ち(早期予測は後述)、計算のレイテンシを$sim$1 hr(従来の生成的評価法を用いて)から$sim$3 minに短縮することができる。
- 参考スコア(独自算出の注目度): 8.19937867582885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paradigm of scaling Large Language Models (LLMs) in both parameter size and test time has pushed the boundaries of AI capabilities, but at the cost of making the traditional generative evaluation paradigm prohibitively expensive, therefore making the latency of LLM's in-training downstream performance evaluation unbearable. However, simple metrics like training loss (perplexity) are not always correlated with downstream performance, as sometimes their trends diverge from the actual task outcomes. This dilemma calls for a method that is computationally efficient and sufficiently accurate in measuring model capabilities. To address this challenge, we introduce a new in-training evaluation paradigm that uses a lightweight probe for monitoring downstream performance. The probes take the internal representations of LLM checkpoints (during training) as input and directly predict the checkpoint's performance on downstream tasks measured by success probability (i.e., pass@1). We design several probe architectures, validating their effectiveness using the OLMo3-7B's checkpoints across a diverse set of downstream tasks. The probes can accurately predict a checkpoint's performance (with avg. AUROC$>$0.75), have decent generalizability across checkpoints (earlier predicts later), and reduce the computation latency from $\sim$1 hr (using conventional generative evaluation method) to $\sim$3 min. In sum, this work presents a practical and scalable in-training downstream evaluation paradigm, enabling a more agile, informed, and efficient LLM development process.
- Abstract(参考訳): パラメータサイズとテスト時間の両方で大規模言語モデル(LLM)をスケールするパラダイムは、AI能力の境界を押し上げてきたが、従来の生成的評価パラダイムを違法に高価にすることで、LLMのトレーニング中の下流のパフォーマンス評価の遅延を回避できないものにしている。
しかしながら、トレーニング損失(複雑さ)のような単純なメトリクスは、実際のタスク結果から傾向が分かれる場合があり、必ずしも下流のパフォーマンスと相関しない。
このジレンマは、計算効率が高く、モデルの能力を測定するのに十分正確な方法を要求する。
この課題に対処するために、下流性能のモニタリングに軽量プローブを用いる、新しいトレーニング評価パラダイムを導入する。
プローブはLSMチェックポイントの内部表現(トレーニング中)を入力として、成功確率(すなわちpass@1)で測定された下流タスクでチェックポイントのパフォーマンスを直接予測する。
我々は複数のプローブアーキテクチャを設計し、OLMo3-7Bのチェックポイントを用いて、様々な下流タスクのセットでそれらの有効性を検証した。
プローブは、チェックポイントのパフォーマンスを正確に予測し(例えば、AUROC$>0.75)、チェックポイントをまたいで十分な一般化性を持ち(早期予測は後述)、計算のレイテンシを$\sim$1 hr(従来の生成的評価法を用いて)から$\sim$3 minに短縮することができる。
まとめると、この研究は実践的でスケーラブルな下流評価パラダイムを示し、よりアジャイルで情報があり、効率的なLCM開発プロセスを可能にします。
関連論文リスト
- Instability in Downstream Task Performance During LLM Pretraining [12.840216854750565]
多様なWebスケールコーパスで学習した大規模言語モデル(LLM)における下流タスク性能の安定性について検討する。
タスクスコアは、アグリゲーションレベルとサンプルレベルの両方で、トレーニングを通して頻繁に変動する。
この不安定性に対処するために、チェックポイント平均化とアンサンブルという2つのポストホックチェックポイント統合手法について検討する。
論文 参考訳(メタデータ) (2025-10-06T14:33:38Z) - Understanding the Role of Training Data in Test-Time Scaling [56.12341509545198]
線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。
多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2025-10-04T01:38:48Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Investigating task-specific prompts and sparse autoencoders for activation monitoring [0.0]
言語モデルの内部アクティベーションは、これに役立つ追加情報をエンコードする。
最近の研究は、単純線形探索を改善するいくつかのアプローチを提案している。
我々は,これらの手法の新たな改良を開発し,検証し,比較する。
論文 参考訳(メタデータ) (2025-04-28T21:28:17Z) - Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective [7.408649506385476]
大規模言語モデル(LLM)トレーニングのエスカレートスケールとコストは、下流タスク性能の正確な事前トレーニング予測を必要とする。
現在の予測手法には精度と信頼性が欠けている。
本稿では,下流性能予測のためのクラスタリングオンディフルティ(COD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-24T15:44:57Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。