論文の概要: Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs?
- arxiv url: http://arxiv.org/abs/2504.12491v1
- Date: Wed, 16 Apr 2025 21:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-26 02:13:03.982031
- Title: Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs?
- Title(参考訳): LLMの微調整結果の予測は可能か?
- Authors: Hansi Zeng, Kai Hui, Honglei Zhuang, Zhen Qin, Zhenrui Yue, Hamed Zamani, Dana Alon,
- Abstract要約: 本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。
本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
- 参考スコア(独自算出の注目度): 32.04523360747506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While metrics available during pre-training, such as perplexity, correlate well with model performance at scaling-laws studies, their predictive capacities at a fixed model size remain unclear, hindering effective model selection and development. To address this gap, we formulate the task of selecting pre-training checkpoints to maximize downstream fine-tuning performance as a pairwise classification problem: predicting which of two LLMs, differing in their pre-training, will perform better after supervised fine-tuning (SFT). We construct a dataset using 50 1B parameter LLM variants with systematically varied pre-training configurations, e.g., objectives or data, and evaluate them on diverse downstream tasks after SFT. We first conduct a study and demonstrate that the conventional perplexity is a misleading indicator. As such, we introduce novel unsupervised and supervised proxy metrics derived from pre-training that successfully reduce the relative performance prediction error rate by over 50%. Despite the inherent complexity of this task, we demonstrate the practical utility of our proposed proxies in specific scenarios, paving the way for more efficient design of pre-training schemes optimized for various downstream tasks.
- Abstract(参考訳): パープレクシリティなどの事前トレーニングで利用可能なメトリクスは、スケーリング法則の研究におけるモデルパフォーマンスとよく相関するが、固定モデルサイズでの予測能力は不明確であり、効果的なモデル選択と開発を妨げる。
このギャップに対処するために,2つのLLMのうちどれが教師付き微調整(SFT)の後に優れているかを予測し,上流の微調整性能を最大化するために,事前学習チェックポイントを選択するタスクをペアの分類問題として定式化する。
本研究では,501Bパラメータ LLM 変種を用いたデータセットを構築し,SFT 以降の様々な下流タスクにおいて,学習前設定,例えば目標やデータ等を体系的に変更し,評価する。
まず研究を行い、従来のパープレキシティが誤解を招く指標であることを実証する。
そこで本研究では,事前学習から導出される新しい教師なし・教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減した。
本研究は,本課題の複雑さにもかかわらず,特定のシナリオにおいて提案するプロキシの実用性を実証し,様々な下流タスクに最適化された事前学習スキームをより効率的に設計する方法について述べる。
関連論文リスト
- The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective [5.09611816929943]
モデルトレーニングに先立って、ダウンストリームタスクのパフォーマンスを正確に予測することは、効率的なリソース割り当てに不可欠である。
既存の性能予測手法は精度と信頼性に限界がある。
本稿では,クラスタリングオンディフルティ(COD)の下流性能予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-24T15:44:57Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。