論文の概要: Predicting Emergent Capabilities by Finetuning
- arxiv url: http://arxiv.org/abs/2411.16035v1
- Date: Mon, 25 Nov 2024 01:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:52.792513
- Title: Predicting Emergent Capabilities by Finetuning
- Title(参考訳): ファインタニングによる創発能力の予測
- Authors: Charlie Snell, Eric Wallace, Dan Klein, Sergey Levine,
- Abstract要約: 微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
- 参考スコア(独自算出の注目度): 98.9684114851891
- License:
- Abstract: A fundamental open challenge in modern LLM scaling is the lack of understanding around emergent capabilities. In particular, language model pretraining loss is known to be highly predictable as a function of compute. However, downstream capabilities are far less predictable -- sometimes even exhibiting emergent jumps -- which makes it challenging to anticipate the capabilities of future models. In this work, we first pose the task of emergence prediction: given access to current LLMs that have random few-shot accuracy on a task, can we predict whether future models (GPT-N+1) will have non-trivial accuracy on that task? We then discover a simple insight for this problem: finetuning LLMs on a given task can shift the point in scaling at which emergence occurs towards less capable models. To operationalize this insight, we can finetune LLMs with varying amounts of data and fit a parametric function that predicts when emergence will occur (i.e., "emergence laws"). We validate this approach using four standard NLP benchmarks where large-scale open-source LLMs already demonstrate emergence (MMLU, GSM8K, CommonsenseQA, and CoLA). Using only small-scale LLMs, we find that, in some cases, we can accurately predict whether models trained with up to 4x more compute have emerged. Finally, we present a case study of two realistic uses for emergence prediction.
- Abstract(参考訳): 現代のLLMスケーリングにおける根本的なオープンな課題は、創発的能力に関する理解の欠如である。
特に、言語モデルの事前学習損失は、計算の関数として非常に予測可能であることが知られている。
しかし、下流の能力は予測し難い -- 時には創発的なジャンプを示すことさえある -- ため、将来のモデルの能力を予想することは困難である。
本研究では,まず,タスクにおけるランダムな数ショット精度を持つ現在のLLMへのアクセスを前提として,そのタスクにおいて,将来モデル(GPT-N+1)が非自明な精度を持つかどうかを予測する。
与えられたタスク上でのLCMの微調整は、より能力の低いモデルに出現するスケーリングのポイントをシフトすることができる。
この知見を運用するために、様々な量のデータでLSMを微調整し、いつ出現するかを予測するパラメトリック関数(すなわち「緊急法則」)に適合させることができる。
我々は,大規模なオープンソースLLMがすでに出現している4つの標準NLPベンチマーク(MMLU, GSM8K, CommonsenseQA, CoLA)を用いて,このアプローチを検証する。
小規模なLLMのみを用いて、最大4倍の計算量でトレーニングされたモデルが出現したかどうかを正確に予測できることが判明した。
最後に,出現予測のための2つの現実的利用事例について述べる。
関連論文リスト
- Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - LLMs are Not Just Next Token Predictors [0.0]
LLMは、次のトークン予測目標を持つ勾配降下による言語学習の統計モデルである。
LLMは次のトークン予測を用いて設計され、このタスクの成功に基づいてトレーニングされていますが、次のトークン予測器への還元はLLMを短く販売する、というのが私たちの見解です。
これを引き出すため、遺伝子の観点から進化と発達を説明する生物学におけるかつての著名な研究プログラムと類似する。
論文 参考訳(メタデータ) (2024-08-06T16:36:28Z) - MoFO: Momentum-Filtered Optimizer for Mitigating Forgetting in LLM Fine-Tuning [11.174544614042984]
微調整の間、大きな言語モデル(LLM)は、事前学習段階で得られた知識を忘れてしまう可能性があるため、一般的な能力は低下する。
我々はMomentum-Filtered Algorithm (MoFO)と呼ばれる新しい微調整アルゴリズムを提案する。
MoFOは、トレーニング済みモデルにパラメータを近づけながら、同様の微調整性能を達成する。
論文 参考訳(メタデータ) (2024-07-30T17:38:24Z) - Can Language Models Use Forecasting Strategies? [14.332379032371612]
実世界の出来事と関連する人間の予測の新たなデータセットを用いた実験について述べる。
モデルはまだ、未来に関する正確な予測に苦戦している。
論文 参考訳(メタデータ) (2024-06-06T19:01:42Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Embers of Autoregression: Understanding Large Language Models Through
the Problem They are Trained to Solve [21.55766758950951]
我々は、単語予測タスクを解決するために、大規模言語モデルが採用する戦略について予測する。
11 つのタスクで 2 つの LLM を評価し,LLM が確率の影響を受けていることを示す。
我々は、LSMをまるで人間であるかのように評価するのではなく、異なるタイプのシステムとして扱うべきだと結論付けている。
論文 参考訳(メタデータ) (2023-09-24T13:35:28Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。