論文の概要: From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline
- arxiv url: http://arxiv.org/abs/2406.11939v2
- Date: Mon, 14 Oct 2024 18:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:56.855301
- Title: From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline
- Title(参考訳): クラウドソーシングデータから高品質ベンチマークへ - Arena-Hard氏とBenchBuilder Pipeline
- Authors: Tianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu, Joseph E. Gonzalez, Ion Stoica,
- Abstract要約: BenchBuilderは、大規模なクラウドソースデータセットから高品質でオープンなプロンプトをキュレートする自動パイプラインである。
BenchBuilderがキュレートした500の挑戦的なプロンプトからなるベンチマークであるArena-Hard-Autoをリリースしました。
我々の研究は、広範囲なデータから自動ベンチマークをスケーラブルにキュレーションするための新しいフレームワークを定めています。
- 参考スコア(独自算出の注目度): 47.19203597218352
- License:
- Abstract: The rapid evolution of Large Language Models (LLMs) has outpaced the development of model evaluation, highlighting the need for continuous curation of new, challenging benchmarks. However, manual curation of high-quality, human-aligned benchmarks is expensive and time-consuming. To address this, we introduce BenchBuilder, an automated pipeline that leverages LLMs to curate high-quality, open-ended prompts from large, crowd-sourced datasets, enabling continuous benchmark updates without human in the loop. We apply BenchBuilder to datasets such as Chatbot Arena and WildChat-1M, extracting challenging prompts and utilizing LLM-as-a-Judge for automatic model evaluation. To validate benchmark quality, we propose new metrics to measure a benchmark's alignment with human preferences and ability to separate models. We release Arena-Hard-Auto, a benchmark consisting 500 challenging prompts curated by BenchBuilder. Arena-Hard-Auto provides 3x higher separation of model performances compared to MT-Bench and achieves 98.6% correlation with human preference rankings, all at a cost of $20. Our work sets a new framework for the scalable curation of automated benchmarks from extensive data.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化は、モデル評価の開発を上回り、新しい挑戦的なベンチマークの継続的なキュレーションの必要性を強調している。
しかし、高品質な人力ベンチマークのマニュアルキュレーションは高価で時間を要する。
これに対処するため、我々はLLMを活用して大規模なクラウドソースデータセットから高品質でオープンなプロンプトをキュレートする自動パイプラインであるBenchBuilderを紹介した。
本稿では、Chatbot ArenaやWildChat-1MといったデータセットにBenchBuilderを適用し、挑戦的なプロンプトを抽出し、LLM-as-a-Judgeを自動モデル評価に活用する。
ベンチマーク品質を評価するため、我々は、人間の嗜好とモデルを分離する能力とのベンチマークのアライメントを測定するための新しい指標を提案する。
BenchBuilderがキュレートした500の挑戦的なプロンプトからなるベンチマークであるArena-Hard-Autoをリリースしました。
Arena-Hard-AutoはMT-Benchよりも3倍高いモデル性能の分離を提供し、人間の選好ランキングと98.6%の相関を、すべて20ドルという価格で達成している。
我々の研究は、広範囲なデータから自動ベンチマークをスケーラブルにキュレーションするための新しいフレームワークを定めています。
関連論文リスト
- BENCHAGENTS: Automated Benchmark Creation with Agent Interaction [16.4783894348333]
BENCHAGENTSは,大規模言語モデル(LLM)を体系的に活用し,複雑な機能のためのベンチマーク作成を自動化するフレームワークである。
我々は、BENCHAGENTSを用いて、テキスト生成時の計画と制約満足度に関連する機能を評価するベンチマークを作成する。
次に、これらのベンチマークを使用して、7つの最先端モデルを調査し、共通の障害モードとモデルの違いに関する新たな洞察を抽出する。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.65095045762524]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。
ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。
AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild [57.272096543738336]
WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
論文 参考訳(メタデータ) (2024-06-07T09:15:44Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid
Progress [42.61046639944395]
繰り返しテストすることで、アルゴリズムが過剰に露出するベンチマークの慣用性によって、オーバーフィッティングのリスクが増大する。
私たちの研究では、Lifelong Benchmarksと呼ばれる大規模ベンチマークを継続的に展開することで、この課題を緩和しようとしています。
オーバーフィッティングを減らす一方で、寿命の長いベンチマークでは重要な課題が紹介されている。
論文 参考訳(メタデータ) (2024-02-29T18:58:26Z) - Do Question Answering Modeling Improvements Hold Across Benchmarks? [84.48867898593052]
20種類の多種多様なモデリング手法を用いて32のQAベンチマークの一致を計測する。
何年にもわたってコミュニティは少数のベンチマークに力を入れてきたが、研究対象のモデリングの改善は広く続いている。
論文 参考訳(メタデータ) (2021-02-01T18:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。