論文の概要: $\texttt{metabench}$ -- A Sparse Benchmark to Measure General Ability in Large Language Models
- arxiv url: http://arxiv.org/abs/2407.12844v1
- Date: Thu, 4 Jul 2024 17:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:28:07.068625
- Title: $\texttt{metabench}$ -- A Sparse Benchmark to Measure General Ability in Large Language Models
- Title(参考訳): $\texttt{metabench}$ -- 大規模言語モデルの一般的な能力を測定するためのスパースベンチマーク
- Authors: Alex Kipnis, Konstantinos Voudouris, Luca M. Schulze Buschoff, Eric Schulz,
- Abstract要約: 大きな言語モデル(LLM)は、様々なタスクでその能力が異なる。
これらのベンチマークを測る共通基盤能力の小さなセットがあることが示される。
スパースベンチマークである$textttmetabench$を蒸留します。
- 参考スコア(独自算出の注目度): 5.972993094932516
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) vary in their abilities on a range of tasks. Initiatives such as the $\texttt{Open LLM Leaderboard}$ aim to quantify these differences with several large benchmarks (sets of test items to which an LLM can respond either correctly or incorrectly). However, high correlations within and between benchmark scores suggest that (1) there exists a small set of common underlying abilities that these benchmarks measure, and (2) items tap into redundant information and the benchmarks may thus be considerably compressed. We use data from $n > 5000$ LLMs to identify the most informative items of six benchmarks, ARC, GSM8K, HellaSwag, MMLU, TruthfulQA and WinoGrande (with $d=28,632$ items in total). From them we distill a sparse benchmark, $\texttt{metabench}$, that has less than $3\%$ of the original size of all six benchmarks combined. This new sparse benchmark goes beyond point scores by yielding estimators of the underlying benchmark-specific abilities. We show that these estimators (1) can be used to reconstruct each original $\textit{individual}$ benchmark score with, on average, $1.5\%$ root mean square error (RMSE), (2) reconstruct the original $\textit{total}$ score with $0.8\%$ RMSE, and (3) have a single underlying common factor whose Spearman correlation with the total score is $r = 0.93$.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なタスクでその能力が異なる。
$\texttt{Open LLM Leaderboard}$のようなイニシアティブは、これらの違いをいくつかの大きなベンチマーク(LLMが正しくも正しくも対応可能なテスト項目のセット)で定量化することを目的としています。
しかし, ベンチマークスコア内とベンチマークスコア間の相関は, 1) ベンチマークが測定する共通能力の小さなセットが存在し, (2) 項目が冗長な情報に埋もれ, ベンチマークは大幅に圧縮される可能性があることを示唆している。
我々は$n > 5000$ LLMsのデータを用いて、ARC、GSM8K、HellaSwag、MMLU、TruthfulQA、WinoGrande(合計$d=28,632$)の6つのベンチマークの最も情報性の高い項目を識別します。
これらのベンチマークから、$\texttt{metabench}$というスパースベンチマークを蒸留します。
この新しいスパースベンチマークは、基礎となるベンチマーク固有の能力を推定することでポイントスコアを超える。
これらの推定器(1)は、各元の$\textit{individual}$ベンチマークスコアを平均で$1.5\%$root mean square error (RMSE)で再構成し、(2)元の$\textit{total}$スコアを$0.8\%$RMSEで再構成し、(3)スピアマンと合計スコアとの相関が$r = 0.93$である単一の共通因子を持つことを示す。
関連論文リスト
- MR-BEN: A Comprehensive Meta-Reasoning Benchmark for Large Language Models [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
メタ推論スキルを必要とするプロセスベースのベンチマークを提案する。
MR-BENは、人間の専門家から収集された5,975の質問からなる総合的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild [57.272096543738336]
WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
論文 参考訳(メタデータ) (2024-06-07T09:15:44Z) - $\texttt{ACCORD}$: Closing the Commonsense Measurability Gap [16.572584339052753]
$texttACCORD$は、大きな言語モデルの常識的な基礎化と推論能力を切り離すためのフレームワークである。
$texttACCORD$は任意の推論複雑性のベンチマークを自動的に生成できる。
論文 参考訳(メタデータ) (2024-06-04T22:08:24Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - GIFT: Generative Interpretable Fine-Tuning [8.481707805559589]
予め訓練したトランスフォーマーバックボーンのパラメータ効率向上のためのGIFT(Generative Interpretable Fine-Tuning)を提案する。
$Theta$は、微調整のために選択されたすべてのレイヤで共有できる。
最初の線形層(すなわち$omegacdot phi$)の出力が驚くほど解釈可能であることを示す。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Likelihood estimation of sparse topic distributions in topic models and
its applications to Wasserstein document distance calculations [3.679981089267181]
トピックモデルでは、$ptimes n$予測ワード頻度行列は$ptimes K$ワードトピック行列$A$として分解される。
A$の列は、すべてのドキュメントに共通する$p$の混合コンポーネントと見なされる。
A$が未知の場合、プラグインに対応する可能性関数を最適化して$T$を見積もる。
論文 参考訳(メタデータ) (2021-07-12T22:22:32Z) - mil-benchmarks: Standardized Evaluation of Deep Multiple-Instance
Learning Techniques [0.0]
マルチインスタンス学習は、ラベルがインスタンス自体ではなくインスタンスの集合に適用される弱い教師付き学習のサブセットである。
本稿では,MNIST,Fashion-MNIST,CIFAR10から生成されるマルチインスタンス学習ベンチマークを紹介する。
論文 参考訳(メタデータ) (2021-05-04T12:09:55Z) - Top-$k$ eXtreme Contextual Bandits with Arm Hierarchy [71.17938026619068]
我々は、腕の総数が膨大であることができるトップ$ k$極端な文脈的包帯問題を研究します。
まず,Inverse Gap Weighting戦略を用いて,非極端に実現可能な設定のアルゴリズムを提案する。
我々のアルゴリズムは、$O(ksqrt(A-k+1)T log (|mathcalF|T))$である。
論文 参考訳(メタデータ) (2021-02-15T19:10:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。