論文の概要: From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline
- arxiv url: http://arxiv.org/abs/2406.11939v1
- Date: Mon, 17 Jun 2024 17:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 00:36:26.332297
- Title: From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline
- Title(参考訳): クラウドソーシングデータから高品質ベンチマークへ - Arena-Hard氏とBenchBuilder Pipeline
- Authors: Tianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu, Joseph E. Gonzalez, Ion Stoica,
- Abstract要約: BenchBuilderは、ライブデータソースから高品質なプロンプトをフィルタリングして、新しくて困難なプロンプトのオフライン評価を可能にするベンチマークである。
Arena-Hard-Auto v0.1はMT-Benchより3倍の信頼区間を提供し、最先端の89.1%を人間の嗜好ランクで達成している。
- 参考スコア(独自算出の注目度): 47.19203597218352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of language models has necessitated the development of more challenging benchmarks. Current static benchmarks often struggle to consistently distinguish between the capabilities of different models and fail to align with real-world user preferences. On the other hand, live crowd-sourced platforms like the Chatbot Arena collect a wide range of natural prompts and user feedback. However, these prompts vary in sophistication and the feedback cannot be applied offline to new models. In order to ensure that benchmarks keep up with the pace of LLM development, we address how one can evaluate benchmarks on their ability to confidently separate models and their alignment with human preference. Under these principles, we developed BenchBuilder, a living benchmark that filters high-quality prompts from live data sources to enable offline evaluation on fresh, challenging prompts. BenchBuilder identifies seven indicators of a high-quality prompt, such as the requirement for domain knowledge, and utilizes an LLM annotator to select a high-quality subset of prompts from various topic clusters. The LLM evaluation process employs an LLM judge to ensure a fully automated, high-quality, and constantly updating benchmark. We apply BenchBuilder on prompts from the Chatbot Arena to create Arena-Hard-Auto v0.1: 500 challenging user prompts from a wide range of tasks. Arena-Hard-Auto v0.1 offers 3x tighter confidence intervals than MT-Bench and achieves a state-of-the-art 89.1% agreement with human preference rankings, all at a cost of only $25 and without human labelers. The BenchBuilder pipeline enhances evaluation benchmarks and provides a valuable tool for developers, enabling them to extract high-quality benchmarks from extensive data with minimal effort.
- Abstract(参考訳): 言語モデルの急速な進化は、より困難なベンチマークの開発を必要としている。
現在の静的ベンチマークは、異なるモデルの能力を一貫して区別するのに苦労し、実際のユーザの好みと一致しないことが多い。
一方、Chatbot Arenaのようなクラウドソースのライブプラットフォームは、さまざまな自然なプロンプトやユーザからのフィードバックを集めている。
しかし、これらのプロンプトは高度に変化しており、新しいモデルにオフラインでフィードバックを適用することはできない。
ベンチマークがLLM開発のペースに遅れないようにするために、モデルを確実に分離する能力と人間の好みに合わせてベンチマークを評価する方法について論じる。
これらの原則の下で、私たちはライブデータソースから高品質なプロンプトをフィルタリングして、新しくて困難なプロンプトのオフライン評価を可能にする、ライブベンチマークであるBenchBuilderを開発しました。
BenchBuilderは、ドメイン知識の要求など、高品質なプロンプトの7つの指標を特定し、LLMアノテータを使用して、さまざまなトピッククラスタから高品質なプロンプトのサブセットを選択する。
LLM評価プロセスは、完全に自動化され、高品質で、常に更新されるベンチマークを保証するために、LLM判定器を使用する。
We apply BenchBuilder on the Chatbot Arena to create Arena-Hard-Auto v0.1: 500 challenge user prompts from various range of tasks。
Arena-Hard-Auto v0.1はMT-Benchよりも3倍の信頼区間を提供し、最先端の89.1%と人間の選好ランクとの合意を達成している。
BenchBuilderパイプラインは評価ベンチマークを強化し、開発者に価値のあるツールを提供する。
関連論文リスト
- BENCHAGENTS: Automated Benchmark Creation with Agent Interaction [16.4783894348333]
BENCHAGENTSは,大規模言語モデル(LLM)を体系的に活用し,複雑な機能のためのベンチマーク作成を自動化するフレームワークである。
我々は、BENCHAGENTSを用いて、テキスト生成時の計画と制約満足度に関連する機能を評価するベンチマークを作成する。
次に、これらのベンチマークを使用して、7つの最先端モデルを調査し、共通の障害モードとモデルの違いに関する新たな洞察を抽出する。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.65095045762524]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。
ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。
AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild [57.272096543738336]
WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
論文 参考訳(メタデータ) (2024-06-07T09:15:44Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Efficient Lifelong Model Evaluation in an Era of Rapid Progress [40.57576540258748]
S&S(Sort & Search, S&S)は, 動的プログラミングアルゴリズムを利用して, テストサンプルのランク付けとサブセレクションを行う。
S&Sは高い効率の近似精度測定を実現し、計算コストを1つのA100 GPU上で180GPU日から5GPU時間に削減し、近似誤差が低く、メモリコストは100MBである。
我々の研究は、現在の精度予測指標の問題を強調し、サンプルレベルの評価指標に移行する必要性を示唆している。
論文 参考訳(メタデータ) (2024-02-29T18:58:26Z) - Do Question Answering Modeling Improvements Hold Across Benchmarks? [84.48867898593052]
20種類の多種多様なモデリング手法を用いて32のQAベンチマークの一致を計測する。
何年にもわたってコミュニティは少数のベンチマークに力を入れてきたが、研究対象のモデリングの改善は広く続いている。
論文 参考訳(メタデータ) (2021-02-01T18:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。