論文の概要: WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
- arxiv url: http://arxiv.org/abs/2406.04770v2
- Date: Sat, 05 Oct 2024 22:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:43:02.619780
- Title: WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
- Title(参考訳): WildBench: LLMのベンチマークと実際のユーザからのタスク
- Authors: Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi,
- Abstract要約: WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
- 参考スコア(独自算出の注目度): 57.272096543738336
- License:
- Abstract: We introduce WildBench, an automated evaluation framework designed to benchmark large language models (LLMs) using challenging, real-world user queries. WildBench consists of 1,024 tasks carefully selected from over one million human-chatbot conversation logs. For automated evaluation with WildBench, we have developed two metrics, WB-Reward and WB-Score, which are computable using advanced LLMs such as GPT-4-turbo. WildBench evaluation uses task-specific checklists to evaluate model outputs systematically and provides structured explanations that justify the scores and comparisons, resulting in more reliable and interpretable automatic judgments. WB-Reward employs fine-grained pairwise comparisons between model responses, generating five potential outcomes: much better, slightly better, slightly worse, much worse, or a tie. Unlike previous evaluations that employed a single baseline model, we selected three baseline models at varying performance levels to ensure a comprehensive pairwise evaluation. Additionally, we propose a simple method to mitigate length bias, by converting outcomes of ``slightly better/worse'' to ``tie'' if the winner response exceeds the loser one by more than $K$ characters. WB-Score evaluates the quality of model outputs individually, making it a fast and cost-efficient evaluation metric. WildBench results demonstrate a strong correlation with the human-voted Elo ratings from Chatbot Arena on hard tasks. Specifically, WB-Reward achieves a Pearson correlation of 0.98 with top-ranking models. Additionally, WB-Score reaches 0.95, surpassing both ArenaHard's 0.91 and AlpacaEval2.0's 0.89 for length-controlled win rates, as well as the 0.87 for regular win rates.
- Abstract(参考訳): WildBenchは,大規模言語モデル(LLM)を,挑戦的な実世界のユーザクエリを用いてベンチマークするために設計された,自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
WildBench を用いた自動評価のために,GPT-4-turbo などの高度な LLM を用いて計算可能な WB-Reward と WB-Score という2つの指標を開発した。
WildBenchの評価では、タスク固有のチェックリストを使用して、モデル出力を体系的に評価し、スコアと比較を正当化する構造化された説明を提供する。
WB-Rewardは、モデル応答間の微妙なペアワイズ比較を採用し、5つの潜在的な結果を生成する。
1つのベースラインモデルを用いた以前の評価とは異なり、我々は3つのベースラインモデルを様々な性能レベルで選択し、総合的なペアワイズ評価を確実にした。
さらに,敗者応答が1文字あたり$K$以上の場合,'`slightly better/worse''' の結果を ``tie'' に変換することで,長さバイアスを軽減するための簡単な手法を提案する。
WB-Scoreは、モデル出力の品質を個別に評価し、高速でコスト効率の高い評価指標となる。
WildBenchの結果は、ハードタスクにおけるChatbot ArenaのElo評価と強い相関関係を示している。
具体的には、WB-Rewardはピアソンの0.98と上位モデルとの相関を達成している。
さらにWBスコアは0.95点に達し、アリーナハードの0.91点、アルパパエバル2.0の0.89点、レギュラー勝利率0.87点を上回った。
関連論文リスト
- Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates [37.56003689042975]
常に一定応答を出力する"nullモデル"でさえ、自動ベンチマークを騙し、トップランクの勝利率を達成することができることを示す。
以上の結果から,信頼性の高い自動ベンチマークのための加熱防止機構の開発が望まれる。
論文 参考訳(メタデータ) (2024-10-09T17:53:06Z) - TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles [2.8839090723566296]
TurtleBenchは、私たちのオンラインTurtle Soup Puzzleプラットフォームから、実際のユーザ推測を収集します。
TurtleBenchには1,532のユーザ推測とアノテーション後の推測の正確性が含まれている。
私たちは現在利用可能な最も先進的な言語モデルのうち9つを徹底的に評価しました。
論文 参考訳(メタデータ) (2024-10-07T17:58:47Z) - LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline [47.19203597218352]
BenchBuilderは、大規模なクラウドソースデータセットから高品質でオープンなプロンプトをキュレートする自動パイプラインである。
BenchBuilderがキュレートした500の挑戦的なプロンプトからなるベンチマークであるArena-Hard-Autoをリリースしました。
我々の研究は、広範囲なデータから自動ベンチマークをスケーラブルにキュレーションするための新しいフレームワークを定めています。
論文 参考訳(メタデータ) (2024-06-17T17:26:10Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - SimPO: Simple Preference Optimization with a Reference-Free Reward [43.136307294076545]
直接選好最適化 (DPO) は、広く使われているオフライン選好最適化アルゴリズムである。
我々はDPOに対するよりシンプルで効果的なアプローチであるSimPOを提案する。
SimPO は、応答長を大幅に増加させることなく、DPO を一貫して大幅に上回る。
論文 参考訳(メタデータ) (2024-05-23T16:01:46Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for
Automatic Dialog Evaluation [69.03658685761538]
オープンドメインダイアログシステム評価はダイアログ研究における最も重要な課題の1つである。
本稿では,自動評価モデルCMADEを提案する。
実験の結果,対話比較作業においてCMADEの精度は89.2%であった。
論文 参考訳(メタデータ) (2020-05-21T15:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。