論文の概要: How predictable is language model benchmark performance?
- arxiv url: http://arxiv.org/abs/2401.04757v1
- Date: Tue, 9 Jan 2024 17:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 16:04:13.323343
- Title: How predictable is language model benchmark performance?
- Title(参考訳): 言語モデルベンチマークのパフォーマンスはどの程度予測可能か?
- Authors: David Owen
- Abstract要約: 平均ベンチマーク性能は、多くの個別タスクを集約し、計算スケールを訓練する機能として十分に予測可能であることを示す。
個々のタスクのパフォーマンスは、偶然よりもはるかに予測可能である。
- 参考スコア(独自算出の注目度): 0.07143413923310668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate large language model performance across five orders of
magnitude of compute scaling in eleven recent model architectures. We show that
average benchmark performance, aggregating over many individual tasks and
evaluations as in the commonly-used BIG-Bench dataset, is decently predictable
as a function of training compute scale. Specifically, when extrapolating
BIG-Bench Hard performance across one order of magnitude in compute, we observe
average absolute errors of 6 percentage points (pp). By contrast, extrapolation
for individual BIG-Bench tasks across an order of magnitude in compute yields
higher average errors of 18pp. Nonetheless, individual task performance remains
significantly more predictable than chance. Overall, our work suggests compute
scaling provides a promising basis to forecast AI capabilities in diverse
benchmarks, though predicting performance in specific tasks poses challenges.
- Abstract(参考訳): 近年の11のモデルアーキテクチャにおいて,大規模言語モデルの性能を5桁のスケールで検証した。
我々は,一般的な大規模ベンチマークデータセットのように,個々のタスクや評価を集約した平均ベンチマーク性能が,計算規模をトレーニングする機能として十分に予測可能であることを示す。
具体的には、BIG-Bench Hardのパフォーマンスを1桁の計算で外挿する場合、平均絶対誤差は6ポイント(pp)である。
対照的に、計算におけるBIG-Benchの個々のタスクに対する外挿は18ppという高い平均誤差をもたらす。
それでも、個々のタスクのパフォーマンスは、チャンスよりもかなり予測可能である。
全体的には、計算スケーリングは、さまざまなベンチマークでAI能力を予測するための有望な基盤を提供するが、特定のタスクのパフォーマンスを予測することは課題をもたらす。
関連論文リスト
- Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Assessing the Generalizability of a Performance Predictive Model [0.6070952062639761]
本稿では,アルゴリズム性能の予測モデルの一般化可能性を評価するワークフローを提案する。
その結果,ランドスケープの特徴空間における一般化可能性パターンが性能空間に反映されることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:50:44Z) - How Predictable Are Large Language Model Capabilities? A Case Study on
BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。
95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。
BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文 参考訳(メタデータ) (2023-05-24T09:35:34Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - RF+clust for Leave-One-Problem-Out Performance Prediction [0.9281671380673306]
本稿では,LOPO(Left-one-problem-out)のパフォーマンス予測について検討する。
我々は、標準ランダムフォレスト(RF)モデル予測が性能値の重み付き平均値で校正することで改善できるかどうかを解析する。
論文 参考訳(メタデータ) (2023-01-23T16:14:59Z) - Scalable Estimation for Structured Additive Distributional Regression [0.0]
本稿では,勾配降下の考え方に基づいて,従来のノートパソコン上の任意の量のデータを扱うことができる新しいバックフィッティングアルゴリズムを提案する。
大規模なシミュレーション研究と、オーストリアにおける雷数予測の非常に困難でユニークな例を用いて、性能を評価した。
論文 参考訳(メタデータ) (2023-01-13T14:59:42Z) - Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them [108.54545521369688]
我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。
BBHタスクへのチェーン・オブ・シント(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
論文 参考訳(メタデータ) (2022-10-17T17:08:26Z) - BB-ML: Basic Block Performance Prediction using Machine Learning
Techniques [0.6020800302423842]
我々は,機械学習(ML)技術を用いて,より微細な粒度,すなわちBasic Block(BB)レベルでの性能予測を行う。
我々は、GPUアプリケーションの基本的なブロック実行数を外挿し、より小さな入力サイズの数から大きな入力サイズのパフォーマンスを予測するためにそれらを使用する。
我々は、より小さな入力セットでトレーニングした場合に、大きな入力セットに対する基本ブロック数を外挿する精度93.5%を達成する。
論文 参考訳(メタデータ) (2022-02-16T00:19:15Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。