論文の概要: WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
- arxiv url: http://arxiv.org/abs/2406.04770v1
- Date: Fri, 7 Jun 2024 09:15:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:50:13.599999
- Title: WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
- Title(参考訳): WildBench: LLMのベンチマークと実際のユーザからのタスク
- Authors: Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi,
- Abstract要約: WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
- 参考スコア(独自算出の注目度): 57.272096543738336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce WildBench, an automated evaluation framework designed to benchmark large language models (LLMs) using challenging, real-world user queries. WildBench consists of 1,024 tasks carefully selected from over one million human-chatbot conversation logs. For automated evaluation with WildBench, we have developed two metrics, WB-Reward and WB-Score, which are computable using advanced LLMs such as GPT-4-turbo. WildBench evaluation uses task-specific checklists to evaluate model outputs systematically and provides structured explanations that justify the scores and comparisons, resulting in more reliable and interpretable automatic judgments. WB-Reward employs fine-grained pairwise comparisons between model responses, generating five potential outcomes: much better, slightly better, slightly worse, much worse, or a tie. Unlike previous evaluations that employed a single baseline model, we selected three baseline models at varying performance levels to ensure a comprehensive pairwise evaluation. Additionally, we propose a simple method to mitigate length bias, by converting outcomes of ``slightly better/worse'' to ``tie'' if the winner response exceeds the loser one by more than $K$ characters. WB-Score evaluates the quality of model outputs individually, making it a fast and cost-efficient evaluation metric. WildBench results demonstrate a strong correlation with the human-voted Elo ratings from Chatbot Arena on hard tasks. Specifically, WB-Reward achieves a Pearson correlation of 0.98 with top-ranking models. Additionally, WB-Score reaches 0.95, surpassing both ArenaHard's 0.91 and AlpacaEval2.0's 0.89 for length-controlled win rates, as well as the 0.87 for regular win rates.
- Abstract(参考訳): WildBenchは,大規模言語モデル(LLM)を,挑戦的な実世界のユーザクエリを用いてベンチマークするために設計された,自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
WildBench を用いた自動評価のために,GPT-4-turbo などの高度な LLM を用いて計算可能な WB-Reward と WB-Score という2つの指標を開発した。
WildBenchの評価では、タスク固有のチェックリストを使用して、モデル出力を体系的に評価し、スコアと比較を正当化する構造化された説明を提供する。
WB-Rewardは、モデル応答間の微妙なペアワイズ比較を採用し、5つの潜在的な結果を生成する。
1つのベースラインモデルを用いた以前の評価とは異なり、我々は3つのベースラインモデルを様々な性能レベルで選択し、総合的なペアワイズ評価を確実にした。
さらに,敗者応答が1文字あたり$K$以上の場合,'`slightly better/worse''' の結果を ``tie'' に変換することで,長さバイアスを軽減するための簡単な手法を提案する。
WB-Scoreは、モデル出力の品質を個別に評価し、高速でコスト効率の高い評価指標となる。
WildBenchの結果は、ハードタスクにおけるChatbot ArenaのElo評価と強い相関関係を示している。
具体的には、WB-Rewardはピアソンの0.98と上位モデルとの相関を達成している。
さらにWBスコアは0.95点に達し、アリーナハードの0.91点、アルパパエバル2.0の0.89点、レギュラー勝利率0.87点を上回った。
関連論文リスト
- R.I.P.: Better Models by Survival of the Fittest Prompts [51.2293437372642]
本稿では,低品質入力が高ばらつきと低品質応答をもたらすという仮定に基づいて,データの完全性を評価する手法を提案する。
これは、拒否された応答品質と、選択された選好対と拒否された選好対の間の報酬ギャップを測定することで達成される。
論文 参考訳(メタデータ) (2025-01-30T18:50:25Z) - ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities [30.123976500620834]
従来の固定テストセットは、ファンデーションモデルのオープンな機能を評価するのに不足しています。
ONEBenchは、個々の評価データセットを統一し、拡張し続けるサンプルプールに統合する新しいテストパラダイムである。
ONEBenchは、テストセットにまたがってサンプルを集約することにより、オリジナルのテストセットでカバーされたもの以上の多様な機能の評価を可能にする。
論文 参考訳(メタデータ) (2024-12-09T18:37:14Z) - Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates [37.56003689042975]
常に一定応答を出力する"nullモデル"でさえ、自動ベンチマークを騙し、トップランクの勝利率を達成することができることを示す。
以上の結果から,信頼性の高い自動ベンチマークのための加熱防止機構の開発が望まれる。
論文 参考訳(メタデータ) (2024-10-09T17:53:06Z) - TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles [2.8839090723566296]
TurtleBenchは、私たちのオンラインTurtle Soup Puzzleプラットフォームから、実際のユーザ推測を収集します。
TurtleBenchには1,532のユーザ推測とアノテーション後の推測の正確性が含まれている。
私たちは現在利用可能な最も先進的な言語モデルのうち9つを徹底的に評価しました。
論文 参考訳(メタデータ) (2024-10-07T17:58:47Z) - LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline [47.19203597218352]
BenchBuilderは、大規模なクラウドソースデータセットから高品質でオープンなプロンプトをキュレートする自動パイプラインである。
BenchBuilderがキュレートした500の挑戦的なプロンプトからなるベンチマークであるArena-Hard-Autoをリリースしました。
我々の研究は、広範囲なデータから自動ベンチマークをスケーラブルにキュレーションするための新しいフレームワークを定めています。
論文 参考訳(メタデータ) (2024-06-17T17:26:10Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for
Automatic Dialog Evaluation [69.03658685761538]
オープンドメインダイアログシステム評価はダイアログ研究における最も重要な課題の1つである。
本稿では,自動評価モデルCMADEを提案する。
実験の結果,対話比較作業においてCMADEの精度は89.2%であった。
論文 参考訳(メタデータ) (2020-05-21T15:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。