Fugu-MT 論文翻訳(概要): MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures

論文の概要: MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures

arxiv url: http://arxiv.org/abs/2406.06565v1
Date: Mon, 3 Jun 2024 05:47:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 00:11:14.438437
Title: MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures
Title（参考訳）: MixEval: LLMベンチマークから群衆の知恵を導き出す
Authors: Jinjie Ni, Fuzhao Xue, Xiang Yue, Yuntian Deng, Mahir Shah, Kabir Jain, Graham Neubig, Yang You,
Abstract要約: 市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
参考スコア（独自算出の注目度）: 57.886592207948844
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating large language models (LLMs) is challenging. Traditional ground-truth-based benchmarks fail to capture the comprehensiveness and nuance of real-world queries, while LLM-as-judge benchmarks suffer from grading biases and limited query quantity. Both of them may also become contaminated over time. User-facing evaluation, such as Chatbot Arena, provides reliable signals but is costly and slow. In this work, we propose MixEval, a new paradigm for establishing efficient, gold-standard LLM evaluation by strategically mixing off-the-shelf benchmarks. It bridges (1) comprehensive and well-distributed real-world user queries and (2) efficient and fairly-graded ground-truth-based benchmarks, by matching queries mined from the web with similar queries from existing benchmarks. Based on MixEval, we further build MixEval-Hard, which offers more room for model improvement. Our benchmarks' advantages lie in (1) a 0.96 model ranking correlation with Chatbot Arena arising from the highly impartial query distribution and grading mechanism, (2) fast, cheap, and reproducible execution (6% of the time and cost of MMLU), and (3) dynamic evaluation enabled by the rapid and stable data update pipeline. We provide extensive meta-evaluation and analysis for our and existing LLM benchmarks to deepen the community's understanding of LLM evaluation and guide future research directions.
Abstract（参考訳）: 大規模言語モデル(LLM)の評価は難しい。 LLM-as-judgeベンチマークは、グレーディングバイアスと限られたクエリ量に悩まされている。両者とも時間とともに汚染されることもある。 Chatbot Arenaのようなユーザによる評価は、信頼できる信号を提供するが、高価で遅い。そこで本研究では,市販のベンチマークを戦略的に混合することにより,効率的な金標準LCM評価を実現するための新しいパラダイムであるMixEvalを提案する。提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。 MixEvalをベースにMixEval-Hardを構築しました。本ベンチマークの利点は,(1) 高速かつ安価かつ再現性の高い実行(MMLUの時間とコストの6%),(3) 高速かつ安定なデータ更新パイプラインで実現可能な動的評価などである。我々は, LLM評価に関するコミュニティの理解を深め, 今後の研究方向性を導くため, 既存の LLM ベンチマークのメタ評価と分析を行う。

関連論文リスト

Importance Sampling is All You Need: Predict LLM's performance on new benchmark by reusing existing benchmark [38.42021928363628]
既存のベンチマークは、(1)高品質なテストスイートと参照ソリューションを構築するためのエスカレートコスト、(2)データ汚染のリスクの増加という2つの大きな課題に直面している。我々は,コード生成タスク上でのLLM性能のゼロトラストフリー予測を可能にする,プロンプト中心評価フレームワークであるBISを提案する。本フレームワークでは,コード正当性スコアの平均絶対誤差が1.1%であり,それぞれ0.3%,最悪のエラーが1.9%である。
論文参考訳（メタデータ） (2025-08-02T05:34:05Z)
How Much Do Large Language Model Cheat on Evaluation? Benchmarking Overestimation under the One-Time-Pad-Based Framework [8.76693832650115]
大規模言語モデル(LLM)を評価する際の過大評価が懸念されている。本稿では,暗号におけるワンタイムパッド暗号化にインスパイアされた動的評価フレームワークArxivRollを提案する。
論文参考訳（メタデータ） (2025-07-25T12:39:03Z)
Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models [66.51871176061195]
Decentralized Arena (dearena) は,すべての大規模言語モデルからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである。人の判断と最大で97%の相関を保ちコストを大幅に削減します
論文参考訳（メタデータ） (2025-05-19T07:34:25Z)
FLEX: A Benchmark for Evaluating Robustness of Fairness in Large Language Models [7.221774553388335]
バイアスを誘発するために構築されたプロンプトに露出しても、大きな言語モデルが公平性を維持することができるかどうかをテストするための新しいベンチマークを導入する。我々は、潜在的なバイアスを公平性評価に増幅するプロンプトを統合する。これは安全性と公正性を保証するために、より厳格な評価ベンチマークの必要性を強調している。
論文参考訳（メタデータ） (2025-03-25T10:48:33Z)
Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文参考訳（メタデータ） (2025-03-17T16:15:02Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient [19.673388630963807]
我々は,4次元と10の基準で構成された,自動的かつ偏りのない評価フレームワークを提案する。本フレームワークでは,大規模言語モデル(LLM)を汎用ベンチマークジェネレータとして直接プロンプトする利点と弱点を解析する。次に、識別された弱点に対処し、それらをBenchMakerとして統合する一連の方法を紹介します。実験により、BenchMakerは、すべてのメトリクスにおいて、人による注釈付きベンチマークよりも優れた、あるいは同等のパフォーマンスを達成することが確認された。
論文参考訳（メタデータ） (2025-02-02T06:36:01Z)
Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large Language Models [0.29687381456164]
大規模言語モデル(LLM)に対するより柔軟なベンチマーク手法を提案する。 textittextbfVarco Arena はトーナメントスタイルで LLM の参照なしベンチマークを提供する。シミュレーション実験により得られた実験結果から,textittextbfVarco Arena トーナメントのアプローチは,現在の Elo モデルとよく一致していることが示された。
論文参考訳（メタデータ） (2024-11-02T15:23:28Z)
HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。 NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文参考訳（メタデータ） (2024-10-03T17:20:11Z)
LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文参考訳（メタデータ） (2024-06-27T16:47:42Z)
Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。 HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文参考訳（メタデータ） (2024-06-21T07:38:55Z)
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。 ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文参考訳（メタデータ） (2024-06-20T04:35:59Z)
How to Prune Your Language Model: Recovering Accuracy on the "Sparsity May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文参考訳（メタデータ） (2023-12-21T03:11:30Z)
Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文参考訳（メタデータ） (2023-11-12T17:18:21Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。