論文の概要: From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline
- arxiv url: http://arxiv.org/abs/2406.11939v1
- Date: Mon, 17 Jun 2024 17:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 00:36:26.332297
- Title: From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline
- Title(参考訳): クラウドソーシングデータから高品質ベンチマークへ - Arena-Hard氏とBenchBuilder Pipeline
- Authors: Tianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu, Joseph E. Gonzalez, Ion Stoica,
- Abstract要約: BenchBuilderは、ライブデータソースから高品質なプロンプトをフィルタリングして、新しくて困難なプロンプトのオフライン評価を可能にするベンチマークである。
Arena-Hard-Auto v0.1はMT-Benchより3倍の信頼区間を提供し、最先端の89.1%を人間の嗜好ランクで達成している。
- 参考スコア(独自算出の注目度): 47.19203597218352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of language models has necessitated the development of more challenging benchmarks. Current static benchmarks often struggle to consistently distinguish between the capabilities of different models and fail to align with real-world user preferences. On the other hand, live crowd-sourced platforms like the Chatbot Arena collect a wide range of natural prompts and user feedback. However, these prompts vary in sophistication and the feedback cannot be applied offline to new models. In order to ensure that benchmarks keep up with the pace of LLM development, we address how one can evaluate benchmarks on their ability to confidently separate models and their alignment with human preference. Under these principles, we developed BenchBuilder, a living benchmark that filters high-quality prompts from live data sources to enable offline evaluation on fresh, challenging prompts. BenchBuilder identifies seven indicators of a high-quality prompt, such as the requirement for domain knowledge, and utilizes an LLM annotator to select a high-quality subset of prompts from various topic clusters. The LLM evaluation process employs an LLM judge to ensure a fully automated, high-quality, and constantly updating benchmark. We apply BenchBuilder on prompts from the Chatbot Arena to create Arena-Hard-Auto v0.1: 500 challenging user prompts from a wide range of tasks. Arena-Hard-Auto v0.1 offers 3x tighter confidence intervals than MT-Bench and achieves a state-of-the-art 89.1% agreement with human preference rankings, all at a cost of only $25 and without human labelers. The BenchBuilder pipeline enhances evaluation benchmarks and provides a valuable tool for developers, enabling them to extract high-quality benchmarks from extensive data with minimal effort.
- Abstract(参考訳): 言語モデルの急速な進化は、より困難なベンチマークの開発を必要としている。
現在の静的ベンチマークは、異なるモデルの能力を一貫して区別するのに苦労し、実際のユーザの好みと一致しないことが多い。
一方、Chatbot Arenaのようなクラウドソースのライブプラットフォームは、さまざまな自然なプロンプトやユーザからのフィードバックを集めている。
しかし、これらのプロンプトは高度に変化しており、新しいモデルにオフラインでフィードバックを適用することはできない。
ベンチマークがLLM開発のペースに遅れないようにするために、モデルを確実に分離する能力と人間の好みに合わせてベンチマークを評価する方法について論じる。
これらの原則の下で、私たちはライブデータソースから高品質なプロンプトをフィルタリングして、新しくて困難なプロンプトのオフライン評価を可能にする、ライブベンチマークであるBenchBuilderを開発しました。
BenchBuilderは、ドメイン知識の要求など、高品質なプロンプトの7つの指標を特定し、LLMアノテータを使用して、さまざまなトピッククラスタから高品質なプロンプトのサブセットを選択する。
LLM評価プロセスは、完全に自動化され、高品質で、常に更新されるベンチマークを保証するために、LLM判定器を使用する。
We apply BenchBuilder on the Chatbot Arena to create Arena-Hard-Auto v0.1: 500 challenge user prompts from various range of tasks。
Arena-Hard-Auto v0.1はMT-Benchよりも3倍の信頼区間を提供し、最先端の89.1%と人間の選好ランクとの合意を達成している。
BenchBuilderパイプラインは評価ベンチマークを強化し、開発者に価値のあるツールを提供する。
関連論文リスト
- LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild [57.272096543738336]
WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
論文 参考訳(メタデータ) (2024-06-07T09:15:44Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - WER we are and WER we think we are [11.819335591315316]
我々は、ベンチマークデータセット上の最新の自動音声認識(ASR)システムによって達成された、非常に低い単語誤り率(WER)に関する最近の報告に対する懐疑論を表現している。
我々は、実生活における自然会話とHUB'05公開ベンチマークのデータセット上で、最先端の商用ASRシステム3つを比較した。
我々は、堅牢なASRシステムのトレーニングとテストのための高品質なアノテーションを備えた実生活のマルチドメインデータセットの作成を支援する一連のガイドラインを定式化する。
論文 参考訳(メタデータ) (2020-10-07T14:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。