論文の概要: Scaling Laws for Predicting Downstream Performance in LLMs
- arxiv url: http://arxiv.org/abs/2410.08527v1
- Date: Fri, 11 Oct 2024 04:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 23:24:44.941106
- Title: Scaling Laws for Predicting Downstream Performance in LLMs
- Title(参考訳): LLMにおける下流性能予測のためのスケーリング法則
- Authors: Yangyi Chen, Binxuan Huang, Yifan Gao, Zhengyang Wang, Jingfeng Yang, Heng Ji,
- Abstract要約: この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
- 参考スコア(独自算出の注目度): 75.28559015477137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Precise estimation of downstream performance in large language models (LLMs) prior to training is essential for guiding their development process. Scaling laws analysis utilizes the statistics of a series of significantly smaller sampling language models (LMs) to predict the performance of the target LLM. For downstream performance prediction, the critical challenge lies in the emergent abilities in LLMs that occur beyond task-specific computational thresholds. In this work, we focus on the pre-training loss as a more computation-efficient metric for performance estimation. Our two-stage approach consists of first estimating a function that maps computational resources (e.g., FLOPs) to the pre-training Loss using a series of sampling models, followed by mapping the pre-training loss to downstream task Performance after the critical "emergent phase". In preliminary experiments, this FLP solution accurately predicts the performance of LLMs with 7B and 13B parameters using a series of sampling LMs up to 3B, achieving error margins of 5% and 10%, respectively, and significantly outperforming the FLOPs-to-Performance approach. This motivates FLP-M, a fundamental approach for performance prediction that addresses the practical need to integrate datasets from multiple sources during pre-training, specifically blending general corpora with code data to accurately represent the common necessity. FLP-M extends the power law analytical function to predict domain-specific pre-training loss based on FLOPs across data sources, and employs a two-layer neural network to model the non-linear relationship between multiple domain-specific loss and downstream performance. By utilizing a 3B LLM trained on a specific ratio and a series of smaller sampling LMs, FLP-M can effectively forecast the performance of 3B and 7B LLMs across various data mixtures for most benchmarks within 10% error margins.
- Abstract(参考訳): 学習前の大規模言語モデル(LLM)の下流性能の正確な推定は,開発プロセスの指導に不可欠である。
スケーリング法則解析は、ターゲットLLMの性能を予測するために、かなり小さなサンプリング言語モデル(LM)の統計を利用する。
下流のパフォーマンス予測にとって重要な課題は、タスク固有の計算しきい値を超えて発生するLLMの創発的能力にある。
本研究では,性能評価のための計算効率の高い指標として,事前学習損失に着目した。
我々の2段階のアプローチは、まず一連のサンプリングモデルを用いて計算資源(例えばFLOP)を事前学習損失にマッピングする関数を推定し、続いてクリティカルな「創発的なフェーズ」の後、トレーニング前の損失を下流タスクのパフォーマンスにマッピングする。
予備実験では、7Bパラメータと13BパラメータのLCMの性能を3BまでのサンプリングLMを用いて正確に予測し、それぞれ5%と10%の誤差マージンを達成し、FLOPs-to-Performanceアプローチを著しく上回った。
これは、事前トレーニング中に複数のソースからのデータセットを統合する必要性に対処する、パフォーマンス予測の基本的なアプローチであるFLP-Mを動機付けている。
FLP-Mは、データソース間のFLOPに基づいて、ドメイン固有の事前トレーニング損失を予測するために、電力法解析関数を拡張し、複数のドメイン固有の損失と下流のパフォーマンスの間の非線形関係をモデル化するために、2層ニューラルネットワークを使用する。
FLP-Mは、特定の比率とより小さなサンプリング用LMを訓練した3B LLMを利用することで、多くのベンチマークで10%の誤差マージンで3Bおよび7B LLMの性能を効果的に予測できる。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Rethinking the Starting Point: Collaborative Pre-Training for Federated Downstream Tasks [21.842345900168525]
CoPreFLはモデルに依存しないメタラーニング(MAML)プロシージャで、異種および目に見えないFLシナリオを忠実に模倣するようにグローバルモデルを調整する。
当社のMAML手順では,パフォーマンスの分散をメタオブジェクト関数に組み込んで,クライアント間でパフォーマンスのバランスをとる。
我々は,任意の下流FLタスク間の平均精度と分散の両面で,CoPreFLが大幅に改善されることを実証した。
論文 参考訳(メタデータ) (2024-02-03T17:58:43Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Interpretable AI-based Large-scale 3D Pathloss Prediction Model for
enabling Emerging Self-Driving Networks [3.710841042000923]
本稿では,新しい鍵予測器を応用した機械学習モデルを提案する。
予測,一般化,計算性能の観点から各種MLアルゴリズムの性能を定量的に評価することにより,光グラディエントブースティングマシン(LightGBM)アルゴリズムが全体として他のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-01-30T19:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。