論文の概要: Confidence and Stability of Global and Pairwise Scores in NLP Evaluation
- arxiv url: http://arxiv.org/abs/2507.01633v1
- Date: Wed, 02 Jul 2025 12:05:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.183425
- Title: Confidence and Stability of Global and Pairwise Scores in NLP Evaluation
- Title(参考訳): NLP評価におけるグローバル・ペアワイズスコアの信頼性と安定性
- Authors: Georgii Levtsov, Dmitry Ustalov,
- Abstract要約: 本稿では,グローバルスコアとペア比較の長所と短所を実証的に検討する。
グローバルスコアは、より信頼性の高い総合ランキングを提供する一方で、希少で重大なエラーや信頼性の低い強力なモデルを過小評価できることがわかった。
- 参考スコア(独自算出の注目度): 7.094351095888013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of highly capable instruction-tuned neural language models, benchmarking in natural language processing (NLP) is increasingly shifting towards pairwise comparison leaderboards, such as LMSYS Arena, from traditional global pointwise scores (e.g., GLUE, BIG-bench, SWE-bench). This paper empirically investigates the strengths and weaknesses of both global scores and pairwise comparisons to aid decision-making in selecting appropriate model evaluation strategies. Through computational experiments on synthetic and real-world datasets using standard global metrics and the popular Bradley-Terry model for pairwise comparisons, we found that while global scores provide more reliable overall rankings, they can underestimate strong models with rare, significant errors or low confidence. Conversely, pairwise comparisons are particularly effective for identifying strong contenders among models with lower global scores, especially where quality metrics are hard to define (e.g., text generation), though they require more comparisons to converge if ties are frequent. Our code and data are available at https://github.com/HSPyroblast/srw-ranking under a permissive license.
- Abstract(参考訳): 高い能力を持つ命令チューニングニューラルネットワークモデルの出現に伴い、自然言語処理(NLP)のベンチマークは、LMSYS Arenaのようなペアワイズ比較のリーダーボード(例えば、GLUE、BIG-bench、SWE-bench)へとシフトしつつある。
本稿では,グローバルスコアとペア比較の長所と短所を実証的に検討し,適切なモデル評価戦略を選択する際の意思決定を支援する。
標準のグローバルメトリクスと人気のBradley-Terryモデルを用いた合成および実世界のデータセットの計算実験により、グローバルスコアはより信頼性の高い総合ランキングを提供する一方で、希少で重要なエラーや信頼性の低い強いモデルを過小評価できることがわかった。
逆に、ペアワイズ比較は、特に低いグローバルスコアを持つモデル間の強力な競合者を特定するのに特に効果的である。
私たちのコードとデータは、パーミッシブライセンスの下でhttps://github.com/HSPyroblast/srwで利用可能です。
関連論文リスト
- Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - How not to Lie with a Benchmark: Rearranging NLP Leaderboards [0.0]
一般的なNLPベンチマークの総合評価手法について検討し、幾何平均と調和平均でモデルを並べ替える。
我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。
論文 参考訳(メタデータ) (2021-12-02T15:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。