論文の概要: LiveBench: A Challenging, Contamination-Free LLM Benchmark
- arxiv url: http://arxiv.org/abs/2406.19314v1
- Date: Thu, 27 Jun 2024 16:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:28:34.962322
- Title: LiveBench: A Challenging, Contamination-Free LLM Benchmark
- Title(参考訳): LiveBench: 複雑で汚染のないLLMベンチマーク
- Authors: Colin White, Samuel Dooley, Manley Roberts, Arka Pal, Ben Feuer, Siddhartha Jain, Ravid Shwartz-Ziv, Neel Jain, Khalid Saifullah, Siddartha Naidu, Chinmay Hegde, Yann LeCun, Tom Goldstein, Willie Neiswanger, Micah Goldblum,
- Abstract要約: 最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
- 参考スコア(独自算出の注目度): 101.21578097087699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test set contamination, wherein test data from a benchmark ends up in a newer model's training set, is a well-documented obstacle for fair LLM evaluation and can quickly render benchmarks obsolete. To mitigate this, many recent benchmarks crowdsource new prompts and evaluations from human or LLM judges; however, these can introduce significant biases, and break down when scoring hard questions. In this work, we introduce a new benchmark for LLMs designed to be immune to both test set contamination and the pitfalls of LLM judging and human crowdsourcing. We release LiveBench, the first benchmark that (1) contains frequently-updated questions from recent information sources, (2) scores answers automatically according to objective ground-truth values, and (3) contains a wide variety of challenging tasks, spanning math, coding, reasoning, language, instruction following, and data analysis. To achieve this, LiveBench contains questions that are based on recently-released math competitions, arXiv papers, news articles, and datasets, and it contains harder, contamination-free versions of tasks from previous benchmarks such as Big-Bench Hard, AMPS, and IFEval. We evaluate many prominent closed-source models, as well as dozens of open-source models ranging from 0.5B to 110B in size. LiveBench is difficult, with top models achieving below 65% accuracy. We release all questions, code, and model answers. Questions will be added and updated on a monthly basis, and we will release new tasks and harder versions of tasks over time so that LiveBench can distinguish between the capabilities of LLMs as they improve in the future. We welcome community engagement and collaboration for expanding the benchmark tasks and models.
- Abstract(参考訳): テストセットの汚染は、ベンチマークから得られたテストデータが、新しいモデルのトレーニングセットに終始する。
これを軽減するため、近年のベンチマークでは、人間やLLMの審査員による新たなプロンプトや評価をクラウドソースしている。
本研究では,LLMの試験セット汚染と,LLM判定と人為的クラウドソーシングの落とし穴の両方に免疫するように設計されたLSMの新しいベンチマークを提案する。
我々は,(1)最近の情報ソースからの頻繁な更新された質問を含む最初のベンチマークであるLiveBenchをリリースし,(2)目的の地平値に応じて回答を自動的にスコアし,(3)数学,コーディング,推論,言語,命令フォロー,データ分析など,幅広い課題を含む。
これを実現するためにLiveBenchには、最近リリースされた数学コンペティション、arXiv論文、ニュース記事、データセットに基づく質問が含まれており、Big-Bench Hard、AMPS、IFEvalといった以前のベンチマークからのタスクの、より難しく汚染のないバージョンを含んでいる。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
LiveBenchは難しいが、上位モデルの精度は65%以下だ。
すべての質問、コード、モデル回答をリリースします。
質問は毎月追加され、更新されます。私たちは、LiveBenchが将来改善されるLLMの能力を区別できるように、新しいタスクとより難しいバージョンのタスクをリリースします。
ベンチマークタスクとモデルを拡大するために、コミュニティの関与とコラボレーションを歓迎します。
関連論文リスト
- MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Mathador-LM: A Dynamic Benchmark for Mathematical Reasoning on Large Language Models [34.814875040792344]
大規模言語モデル(LLM)の数学的推論を評価するための新しいベンチマークであるMathador-LMを紹介する。
Mathador-LMはMathadorゲームにインスパイアされており、そのゲームの目的は、与えられた基本数の集合の基本的な算術演算を用いてターゲット数に到達することである。
先行するLLMに対して,目標の難易度に従って,ベンチマークインスタンスを動的に生成しながら,安定した平均性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-18T13:02:12Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。