論文の概要: LiveBench: A Challenging, Contamination-Free LLM Benchmark
- arxiv url: http://arxiv.org/abs/2406.19314v1
- Date: Thu, 27 Jun 2024 16:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:28:34.962322
- Title: LiveBench: A Challenging, Contamination-Free LLM Benchmark
- Title(参考訳): LiveBench: 複雑で汚染のないLLMベンチマーク
- Authors: Colin White, Samuel Dooley, Manley Roberts, Arka Pal, Ben Feuer, Siddhartha Jain, Ravid Shwartz-Ziv, Neel Jain, Khalid Saifullah, Siddartha Naidu, Chinmay Hegde, Yann LeCun, Tom Goldstein, Willie Neiswanger, Micah Goldblum,
- Abstract要約: 最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
- 参考スコア(独自算出の注目度): 101.21578097087699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test set contamination, wherein test data from a benchmark ends up in a newer model's training set, is a well-documented obstacle for fair LLM evaluation and can quickly render benchmarks obsolete. To mitigate this, many recent benchmarks crowdsource new prompts and evaluations from human or LLM judges; however, these can introduce significant biases, and break down when scoring hard questions. In this work, we introduce a new benchmark for LLMs designed to be immune to both test set contamination and the pitfalls of LLM judging and human crowdsourcing. We release LiveBench, the first benchmark that (1) contains frequently-updated questions from recent information sources, (2) scores answers automatically according to objective ground-truth values, and (3) contains a wide variety of challenging tasks, spanning math, coding, reasoning, language, instruction following, and data analysis. To achieve this, LiveBench contains questions that are based on recently-released math competitions, arXiv papers, news articles, and datasets, and it contains harder, contamination-free versions of tasks from previous benchmarks such as Big-Bench Hard, AMPS, and IFEval. We evaluate many prominent closed-source models, as well as dozens of open-source models ranging from 0.5B to 110B in size. LiveBench is difficult, with top models achieving below 65% accuracy. We release all questions, code, and model answers. Questions will be added and updated on a monthly basis, and we will release new tasks and harder versions of tasks over time so that LiveBench can distinguish between the capabilities of LLMs as they improve in the future. We welcome community engagement and collaboration for expanding the benchmark tasks and models.
- Abstract(参考訳): テストセットの汚染は、ベンチマークから得られたテストデータが、新しいモデルのトレーニングセットに終始する。
これを軽減するため、近年のベンチマークでは、人間やLLMの審査員による新たなプロンプトや評価をクラウドソースしている。
本研究では,LLMの試験セット汚染と,LLM判定と人為的クラウドソーシングの落とし穴の両方に免疫するように設計されたLSMの新しいベンチマークを提案する。
我々は,(1)最近の情報ソースからの頻繁な更新された質問を含む最初のベンチマークであるLiveBenchをリリースし,(2)目的の地平値に応じて回答を自動的にスコアし,(3)数学,コーディング,推論,言語,命令フォロー,データ分析など,幅広い課題を含む。
これを実現するためにLiveBenchには、最近リリースされた数学コンペティション、arXiv論文、ニュース記事、データセットに基づく質問が含まれており、Big-Bench Hard、AMPS、IFEvalといった以前のベンチマークからのタスクの、より難しく汚染のないバージョンを含んでいる。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
LiveBenchは難しいが、上位モデルの精度は65%以下だ。
すべての質問、コード、モデル回答をリリースします。
質問は毎月追加され、更新されます。私たちは、LiveBenchが将来改善されるLLMの能力を区別できるように、新しいタスクとより難しいバージョンのタスクをリリースします。
ベンチマークタスクとモデルを拡大するために、コミュニティの関与とコラボレーションを歓迎します。
関連論文リスト
- Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Benchmarking Large Language Models via Random Variables [40.65711363554025]
近年の研究では、現在の数学ベンチマークの信頼性が懸念されている。
本稿では,Random Variablesによる大規模言語モデルを数学的推論でベンチマークするフレームワークであるRV-Benchを提案する。
以上の結果から,LSMは出現したデータドメインと"見えない"データドメインの習熟度に不整合を示すことが示唆された。
論文 参考訳(メタデータ) (2025-01-20T23:41:22Z) - AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge [68.39683427262335]
既存の研究は、新たに収集されたデータが既存の知識を含む可能性があるため、汚染のない評価を保証することができない。
本稿では,自動アンチリーチベンチマークフレームワークであるAntiLeak-Benchを提案する。
論文 参考訳(メタデータ) (2024-12-18T09:53:12Z) - A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。
30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。
FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文 参考訳(メタデータ) (2024-11-27T03:25:44Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。