論文の概要: $\texttt{metabench}$ -- A Sparse Benchmark to Measure General Ability in Large Language Models
- arxiv url: http://arxiv.org/abs/2407.12844v1
- Date: Thu, 4 Jul 2024 17:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:28:07.068625
- Title: $\texttt{metabench}$ -- A Sparse Benchmark to Measure General Ability in Large Language Models
- Title(参考訳): $\texttt{metabench}$ -- 大規模言語モデルの一般的な能力を測定するためのスパースベンチマーク
- Authors: Alex Kipnis, Konstantinos Voudouris, Luca M. Schulze Buschoff, Eric Schulz,
- Abstract要約: 大きな言語モデル(LLM)は、様々なタスクでその能力が異なる。
これらのベンチマークを測る共通基盤能力の小さなセットがあることが示される。
スパースベンチマークである$textttmetabench$を蒸留します。
- 参考スコア(独自算出の注目度): 5.972993094932516
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) vary in their abilities on a range of tasks. Initiatives such as the $\texttt{Open LLM Leaderboard}$ aim to quantify these differences with several large benchmarks (sets of test items to which an LLM can respond either correctly or incorrectly). However, high correlations within and between benchmark scores suggest that (1) there exists a small set of common underlying abilities that these benchmarks measure, and (2) items tap into redundant information and the benchmarks may thus be considerably compressed. We use data from $n > 5000$ LLMs to identify the most informative items of six benchmarks, ARC, GSM8K, HellaSwag, MMLU, TruthfulQA and WinoGrande (with $d=28,632$ items in total). From them we distill a sparse benchmark, $\texttt{metabench}$, that has less than $3\%$ of the original size of all six benchmarks combined. This new sparse benchmark goes beyond point scores by yielding estimators of the underlying benchmark-specific abilities. We show that these estimators (1) can be used to reconstruct each original $\textit{individual}$ benchmark score with, on average, $1.5\%$ root mean square error (RMSE), (2) reconstruct the original $\textit{total}$ score with $0.8\%$ RMSE, and (3) have a single underlying common factor whose Spearman correlation with the total score is $r = 0.93$.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なタスクでその能力が異なる。
$\texttt{Open LLM Leaderboard}$のようなイニシアティブは、これらの違いをいくつかの大きなベンチマーク(LLMが正しくも正しくも対応可能なテスト項目のセット)で定量化することを目的としています。
しかし, ベンチマークスコア内とベンチマークスコア間の相関は, 1) ベンチマークが測定する共通能力の小さなセットが存在し, (2) 項目が冗長な情報に埋もれ, ベンチマークは大幅に圧縮される可能性があることを示唆している。
我々は$n > 5000$ LLMsのデータを用いて、ARC、GSM8K、HellaSwag、MMLU、TruthfulQA、WinoGrande(合計$d=28,632$)の6つのベンチマークの最も情報性の高い項目を識別します。
これらのベンチマークから、$\texttt{metabench}$というスパースベンチマークを蒸留します。
この新しいスパースベンチマークは、基礎となるベンチマーク固有の能力を推定することでポイントスコアを超える。
これらの推定器(1)は、各元の$\textit{individual}$ベンチマークスコアを平均で$1.5\%$root mean square error (RMSE)で再構成し、(2)元の$\textit{total}$スコアを$0.8\%$RMSEで再構成し、(3)スピアマンと合計スコアとの相関が$r = 0.93$である単一の共通因子を持つことを示す。
関連論文リスト
- MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems [43.19298196163617]
MIRAGE-Benchは,Wikipedia上の18の多言語言語を対象とした標準化されたアリーナベース多言語RAGベンチマークである。
このアイデアを用いて、Wikipedia上の18の多様な言語に対して、標準化されたアリーナベースの多言語RAGベンチマークであるMIRAGE-Benchを開発した。
論文 参考訳(メタデータ) (2024-10-17T16:18:49Z) - Leaving the barn door open for Clever Hans: Simple features predict LLM benchmark answers [10.786564839628952]
AIベンチマークの内部的妥当性は、要因の相違のないことを保証するために不可欠である。
我々は、AIシステムが意図しない方法でベンチマークを解決し、テスト対象の能力を回避できる可能性を調査する。
論文 参考訳(メタデータ) (2024-10-15T15:05:41Z) - WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild [57.272096543738336]
WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
論文 参考訳(メタデータ) (2024-06-07T09:15:44Z) - $\texttt{ACCORD}$: Closing the Commonsense Measurability Gap [16.572584339052753]
$texttACCORD$は、大きな言語モデルの常識的な基礎化と推論能力を切り離すためのフレームワークである。
$texttACCORD$は任意の推論複雑性のベンチマークを自動的に生成できる。
論文 参考訳(メタデータ) (2024-06-04T22:08:24Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは,大規模言語モデルのマルチエージェント環境におけるゲーミング能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
その結果, GPT-3.5は強い強靭性を示すが, 限定的な一般化性を示し, Chain-of-Thoughtのような手法で拡張できることがわかった。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Likelihood estimation of sparse topic distributions in topic models and
its applications to Wasserstein document distance calculations [3.679981089267181]
トピックモデルでは、$ptimes n$予測ワード頻度行列は$ptimes K$ワードトピック行列$A$として分解される。
A$の列は、すべてのドキュメントに共通する$p$の混合コンポーネントと見なされる。
A$が未知の場合、プラグインに対応する可能性関数を最適化して$T$を見積もる。
論文 参考訳(メタデータ) (2021-07-12T22:22:32Z) - mil-benchmarks: Standardized Evaluation of Deep Multiple-Instance
Learning Techniques [0.0]
マルチインスタンス学習は、ラベルがインスタンス自体ではなくインスタンスの集合に適用される弱い教師付き学習のサブセットである。
本稿では,MNIST,Fashion-MNIST,CIFAR10から生成されるマルチインスタンス学習ベンチマークを紹介する。
論文 参考訳(メタデータ) (2021-05-04T12:09:55Z) - Top-$k$ eXtreme Contextual Bandits with Arm Hierarchy [71.17938026619068]
我々は、腕の総数が膨大であることができるトップ$ k$極端な文脈的包帯問題を研究します。
まず,Inverse Gap Weighting戦略を用いて,非極端に実現可能な設定のアルゴリズムを提案する。
我々のアルゴリズムは、$O(ksqrt(A-k+1)T log (|mathcalF|T))$である。
論文 参考訳(メタデータ) (2021-02-15T19:10:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。