Fugu-MT 論文翻訳(概要): metabench -- A Sparse Benchmark of Reasoning and Knowledge in Large Language Models

論文の概要: metabench -- A Sparse Benchmark of Reasoning and Knowledge in Large Language Models

arxiv url: http://arxiv.org/abs/2407.12844v2
Date: Thu, 20 Feb 2025 16:20:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.279577
Title: metabench -- A Sparse Benchmark of Reasoning and Knowledge in Large Language Models
Title（参考訳）: metabench -- 大規模言語モデルにおける推論と知識のまばらなベンチマーク
Authors: Alex Kipnis, Konstantinos Voudouris, Luca M. Schulze Buschoff, Eric Schulz,
Abstract要約: 大きな言語モデル(LLM)は、様々なタスクでその能力が異なる。これらのベンチマークを測る共通基盤能力の小さなセットがあることが示される。スパースベンチマークであるメタベンチを蒸留し、これらは6つのベンチマークの原サイズの3%以下である。
参考スコア（独自算出の注目度）: 5.972993094932516
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) vary in their abilities on a range of tasks. Initiatives such as the Open LLM Leaderboard aim to quantify these differences with several large benchmarks (sets of test items to which an LLM can respond either correctly or incorrectly). However, high correlations within and between benchmark scores suggest that (1) there exists a small set of common underlying abilities that these benchmarks measure, and (2) items tap into redundant information and the benchmarks may thus be considerably compressed. We use data from n > 5000 LLMs to identify the most informative items of six benchmarks, ARC, GSM8K, HellaSwag, MMLU, TruthfulQA and WinoGrande (with d = 28,632 items in total). From them we distill a sparse benchmark, metabench, that has less than 3% of the original size of all six benchmarks combined. This new sparse benchmark goes beyond point scores by yielding estimators of the underlying benchmark-specific abilities. We show that these estimators (1) can be used to reconstruct each original individual benchmark score with, on average, 1.24% root mean square error (RMSE), (2) reconstruct the original total score with 0.58% RMSE, and (3) have a single underlying common factor whose Spearman correlation with the total score is r = 0.94.
Abstract（参考訳）: 大きな言語モデル(LLM)は、様々なタスクでその能力が異なる。 Open LLM Leaderboardのようなイニシアチブは、これらの違いをいくつかの大きなベンチマーク(LLMが正しくも正しくも対応可能なテスト項目のセット)で定量化することを目的としています。しかし, ベンチマークスコア内とベンチマークスコア間の相関は, 1) ベンチマークが測定する共通能力の小さなセットが存在し, (2) 項目が冗長な情報に埋もれ, ベンチマークは大幅に圧縮される可能性があることを示唆している。我々は n > 5000 LLM のデータを用いて、ARC, GSM8K, HellaSwag, MMLU, TruthfulQA, WinoGrande の6つのベンチマークの最も情報性の高い項目を識別する(合計 d = 28632 項目)。そこから、スパースベンチマークであるMetabenchを蒸留し、これらは6つのベンチマークを合わせた元のサイズの3%以下である。この新しいスパースベンチマークは、基礎となるベンチマーク固有の能力を推定することでポイントスコアを超える。これらの推定器は,各ベンチマークスコアを平均1.24%の根平均二乗誤差(RMSE)で再構成し,(2)元の総スコアを0.58%のRMSEで再構成し,(3)スピアマンと総スコアとの相関が0。

関連論文リスト

Importance Sampling is All You Need: Predict LLM's performance on new benchmark by reusing existing benchmark [38.42021928363628]
既存のベンチマークは、(1)高品質なテストスイートと参照ソリューションを構築するためのエスカレートコスト、(2)データ汚染のリスクの増加という2つの大きな課題に直面している。我々は,コード生成タスク上でのLLM性能のゼロトラストフリー予測を可能にする,プロンプト中心評価フレームワークであるBISを提案する。本フレームワークでは,コード正当性スコアの平均絶対誤差が1.1%であり,それぞれ0.3%,最悪のエラーが1.9%である。
論文参考訳（メタデータ） (2025-08-02T05:34:05Z)
Resampling Benchmark for Efficient Comprehensive Evaluation of Large Vision-Language Models [18.309464845180237]
大規模視覚言語モデル(VLM)の効率的な評価プロトコルを提案する。完全なベンチマーク評価に匹敵する結果をもたらすサブセットを構築する。既存のベンチマークにFPSを適用することで、全体的な評価結果との相関が改善される。
論文参考訳（メタデータ） (2025-04-14T08:43:00Z)
Information Density Principle for MLLM Benchmarks [59.88484827926759]
本稿では,MLLMの開発において,ベンチマークがどの程度の洞察を得られるかを検討する情報密度の原理を提案する。 1万以上のサンプルの包括的分析により,19個のMLLMベンチマークの情報密度を測定した。実験によると、テストで最新のベンチマークを使用すると、以前のベンチマークよりも多くの洞察が得られるが、情報密度を改善する余地はまだ残っている。
論文参考訳（メタデータ） (2025-03-13T05:58:41Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
How Should We Build A Benchmark? Revisiting 274 Code-Related Benchmarks For LLMs [60.25940747590386]
本稿では,コード関連ベンチマークの開発を包括的に管理するためのガイドラインとして,55の基準チェックリストからなるHow2Benchを提案する。私たちは過去10年以内にリリースされた274のベンチマークをプロファイルし、問題を見つけました。ベンチマークの70%近くはデータ品質保証の措置を取らず、10%以上がオープンソースでも、部分的にはオープンソースでもなかった。
論文参考訳（メタデータ） (2025-01-18T09:51:57Z)
MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems [43.19298196163617]
MIRAGE-Benchは,Wikipedia上の18の多言語言語を対象とした標準化されたアリーナベース多言語RAGベンチマークである。このアイデアを用いて、Wikipedia上の18の多様な言語に対して、標準化されたアリーナベースの多言語RAGベンチマークであるMIRAGE-Benchを開発した。
論文参考訳（メタデータ） (2024-10-17T16:18:49Z)
Leaving the barn door open for Clever Hans: Simple features predict LLM benchmark answers [10.786564839628952]
AIベンチマークの内部的妥当性は、要因の相違のないことを保証するために不可欠である。我々は、AIシステムが意図しない方法でベンチマークを解決し、テスト対象の能力を回避できる可能性を調査する。
論文参考訳（メタデータ） (2024-10-15T15:05:41Z)
Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。 HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文参考訳（メタデータ） (2024-06-21T07:38:55Z)
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。 ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文参考訳（メタデータ） (2024-06-20T04:35:59Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild [57.272096543738336]
WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。 WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。 We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
論文参考訳（メタデータ） (2024-06-07T09:15:44Z)
$\texttt{ACCORD}$: Closing the Commonsense Measurability Gap [16.572584339052753]
$texttACCORD$は、大きな言語モデルの常識的な基礎化と推論能力を切り離すためのフレームワークである。 $texttACCORD$は任意の推論複雑性のベンチマークを自動的に生成できる。
論文参考訳（メタデータ） (2024-06-04T22:08:24Z)
MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文参考訳（メタデータ） (2024-06-03T05:47:05Z)
How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは,大規模言語モデルのマルチエージェント環境におけるゲーミング能力を評価するための新しいフレームワークである。 $gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。その結果, GPT-3.5は強い強靭性を示すが, 限定的な一般化性を示し, Chain-of-Thoughtのような手法で拡張できることがわかった。
論文参考訳（メタデータ） (2024-03-18T14:04:47Z)
tinyBenchmarks: evaluating LLMs with fewer examples [42.95407654805037]
Open LLM Leaderboard、MMLU、HELM、AlpacaEval 2.0。実験により,これらのツールと小さなベンチマークは,元の評価結果を確実かつ効率的に再現するのに十分であることを実証した。
論文参考訳（メタデータ） (2024-02-22T22:05:23Z)
Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文参考訳（メタデータ） (2024-02-06T18:59:30Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Likelihood estimation of sparse topic distributions in topic models and its applications to Wasserstein document distance calculations [3.679981089267181]
トピックモデルでは、$ptimes n$予測ワード頻度行列は$ptimes K$ワードトピック行列$A$として分解される。 A$の列は、すべてのドキュメントに共通する$p$の混合コンポーネントと見なされる。 A$が未知の場合、プラグインに対応する可能性関数を最適化して$T$を見積もる。
論文参考訳（メタデータ） (2021-07-12T22:22:32Z)
mil-benchmarks: Standardized Evaluation of Deep Multiple-Instance Learning Techniques [0.0]
マルチインスタンス学習は、ラベルがインスタンス自体ではなくインスタンスの集合に適用される弱い教師付き学習のサブセットである。本稿では,MNIST,Fashion-MNIST,CIFAR10から生成されるマルチインスタンス学習ベンチマークを紹介する。
論文参考訳（メタデータ） (2021-05-04T12:09:55Z)
Top-$k$ eXtreme Contextual Bandits with Arm Hierarchy [71.17938026619068]
我々は、腕の総数が膨大であることができるトップ$ k$極端な文脈的包帯問題を研究します。まず,Inverse Gap Weighting戦略を用いて,非極端に実現可能な設定のアルゴリズムを提案する。我々のアルゴリズムは、$O(ksqrt(A-k+1)T log (|mathcalF|T))$である。
論文参考訳（メタデータ） (2021-02-15T19:10:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。