論文の概要: Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective
- arxiv url: http://arxiv.org/abs/2502.17262v1
- Date: Mon, 24 Feb 2025 15:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:14.757169
- Title: Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective
- Title(参考訳): LLMのダウンストリームパフォーマンススケーリングの展開:クラスタリングに基づく視点
- Authors: Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li,
- Abstract要約: モデルトレーニングに先立って、ダウンストリームタスクのパフォーマンスを正確に予測することは、効率的なリソース割り当てに不可欠である。
既存の性能予測手法は精度と信頼性に限界がある。
本稿では,クラスタリングオンディフルティ(COD)の下流性能予測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.09611816929943
- License:
- Abstract: The rapid advancements in computing dramatically increase the scale and cost of training Large Language Models (LLMs). Accurately predicting downstream task performance prior to model training is crucial for efficient resource allocation, yet remains challenging due to two primary constraints: (1) the "emergence phenomenon", wherein downstream performance metrics become meaningful only after extensive training, which limits the ability to use smaller models for prediction; (2) Uneven task difficulty distributions and the absence of consistent scaling laws, resulting in substantial metric variability. Existing performance prediction methods suffer from limited accuracy and reliability, thereby impeding the assessment of potential LLM capabilities. To address these challenges, we propose a Clustering-On-Difficulty (COD) downstream performance prediction framework. COD first constructs a predictable support subset by clustering tasks based on difficulty features, strategically excluding non-emergent and non-scalable clusters. The scores on the selected subset serve as effective intermediate predictors of downstream performance on the full evaluation set. With theoretical support, we derive a mapping function that transforms performance metrics from the predictable subset to the full evaluation set, thereby ensuring accurate extrapolation of LLM downstream performance. The proposed method has been applied to predict performance scaling for a 70B LLM, providing actionable insights for training resource allocation and assisting in monitoring the training process. Notably, COD achieves remarkable predictive accuracy on the 70B LLM by leveraging an ensemble of small models, demonstrating an absolute mean deviation of 1.36% across eight important LLM evaluation benchmarks.
- Abstract(参考訳): コンピュータの急速な進歩は、大規模言語モデル(LLM)の訓練の規模とコストを劇的に高めている。
モデルトレーニングに先立って、ダウンストリームタスクのパフォーマンスを正確に予測することは、効率的なリソース割り当てには不可欠であるが、(1)大規模なトレーニング後にのみダウンストリームパフォーマンスメトリクスが意味を持つようになる「エマージェンス現象」、(2)タスクの難易度分布と一貫したスケーリング法則の欠如により、相当な量的変動をもたらす、という2つの主要な制約がある。
既存の性能予測手法は、精度と信頼性の限界に悩まされており、潜在的LLM能力の評価を妨げている。
これらの課題に対処するために、下流のパフォーマンス予測フレームワークであるClustering-On-Difficulty (COD)を提案する。
CODはまず、難易度の特徴に基づいてタスクをクラスタリングすることで予測可能なサポートサブセットを構築し、非エマージェントクラスタと非スケーラブルクラスタを戦略的に排除する。
選択されたサブセットのスコアは、全評価セットの下流性能の効果的な中間予測器として機能する。
理論的支援により、予測可能なサブセットから完全な評価セットに性能指標を変換するマッピング関数が導出され、LLM下流性能の正確な外挿が保証される。
提案手法は,70B LLMの性能スケーリング予測に応用され,資源割り当てのトレーニングや,トレーニングプロセスの監視を支援するための実用的な洞察を提供する。
特に、CODは小型モデルのアンサンブルを利用して、70B LLMで顕著な予測精度を実現し、8つの重要なLLM評価ベンチマークで1.36%の絶対的な平均偏差を示す。
関連論文リスト
- The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - FORML: Learning to Reweight Data for Fairness [2.105564340986074]
メタラーニング(FORML)によるフェアネス最適化リヘアリングについて紹介する。
FORMLは、トレーニングサンプル重量とニューラルネットワークのパラメータを共同最適化することで、公正性の制約と精度のバランスを取る。
また,FORMLは,既存の最先端再重み付け手法に比べて,画像分類タスクで約1%,顔予測タスクで約5%向上することを示した。
論文 参考訳(メタデータ) (2022-02-03T17:36:07Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。