論文の概要: Quantifying Variance in Evaluation Benchmarks
- arxiv url: http://arxiv.org/abs/2406.10229v1
- Date: Fri, 14 Jun 2024 17:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 12:27:23.223604
- Title: Quantifying Variance in Evaluation Benchmarks
- Title(参考訳): 評価ベンチマークにおける変数の定量化
- Authors: Lovish Madaan, Aaditya K. Singh, Rylan Schaeffer, Andrew Poulton, Sanmi Koyejo, Pontus Stenetorp, Sharan Narang, Dieuwke Hupkes,
- Abstract要約: 評価ベンチマークのばらつきは,初期化における種子のばらつき,訓練中の単調性などである。
選択タスクを完了タスクとしてフレーミングするといった単純な変更は、小さなスケールでの分散を減少させる可能性がある。
人間のテスト文献(項目分析や項目応答理論など)に触発されたより複雑な手法は、分散を有意義に減少させるのに苦労する。
- 参考スコア(独自算出の注目度): 34.12254884944099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation benchmarks are the cornerstone of measuring capabilities of large language models (LLMs), as well as driving progress in said capabilities. Originally designed to make claims about capabilities (or lack thereof) in fully pretrained models, evaluation benchmarks are now also extensively used to decide between various training choices. Despite this widespread usage, we rarely quantify the variance in our evaluation benchmarks, which dictates whether differences in performance are meaningful. Here, we define and measure a range of metrics geared towards measuring variance in evaluation benchmarks, including seed variance across initialisations, and monotonicity during training. By studying a large number of models -- both openly available and pretrained from scratch -- we provide empirical estimates for a variety of variance metrics, with considerations and recommendations for practitioners. We also evaluate the utility and tradeoffs of continuous versus discrete performance measures and explore options for better understanding and reducing this variance. We find that simple changes, such as framing choice tasks (like MMLU) as completion tasks, can often reduce variance for smaller scale ($\sim$7B) models, while more involved methods inspired from human testing literature (such as item analysis and item response theory) struggle to meaningfully reduce variance. Overall, our work provides insights into variance in evaluation benchmarks, suggests LM-specific techniques to reduce variance, and more generally encourages practitioners to carefully factor in variance when comparing models.
- Abstract(参考訳): 評価ベンチマークは、大きな言語モデル(LLM)の能力測定の基盤であり、その能力の進歩を促進する。
もともとは、完全に事前訓練されたモデルにおける能力(またはその欠如)に関する主張をするために設計されたが、評価ベンチマークは様々なトレーニング選択を決定するために広く使われている。
このような広く使われているにもかかわらず、評価ベンチマークのばらつきを定量化することは滅多になく、パフォーマンスの違いが意味のあるものであるかどうかを判断する。
ここでは、初期化における種子の分散、トレーニング中の単調性など、評価ベンチマークのばらつきを測定するための指標を定義、測定する。
多数のモデル(オープンで利用可能で、スクラッチから事前訓練されたモデル)を研究することで、さまざまな分散メトリクスに対して、実践者に対する考慮とレコメンデーションとともに、経験的な見積もりを提供します。
また、連続的なパフォーマンス対策と離散的なパフォーマンス対策の有用性とトレードオフを評価し、この分散をよりよく理解し、削減するための選択肢を探る。
MMLUのような)選択タスクを完了タスクとしてフレーミングするような単純な変更は、小さなスケール($7B)モデルの分散を減少させることがあるのに対して、より複雑な手法(アイテム分析やアイテム応答理論など)は、分散を有意義に減少させるのに苦労している。
全体として、我々の研究は、評価ベンチマークのばらつきに関する洞察を提供し、分散を減らすためのLM固有のテクニックを提案し、より一般的には、モデルを比較する際のばらつきを慎重に要因付けすることを実践者に促します。
関連論文リスト
- Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification [3.1850615666574806]
本研究は, 有病率の異なるデータ間でのモデル評価において, 測定値の整合性について検討する。
有病率の影響を受けない評価指標は、個々のモデルの一貫性のある評価と、モデルの集合の一貫性のあるランキングを提供する。
論文 参考訳(メタデータ) (2024-08-19T17:52:38Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。
我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。
OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Beyond ELBOs: A Large-Scale Evaluation of Variational Methods for Sampling [14.668634411361307]
標準化されたタスクスイートと幅広い性能基準を用いてサンプリング手法を評価するベンチマークを導入する。
モード崩壊の定量化のための既存のメトリクスについて検討し、この目的のために新しいメトリクスを導入する。
論文 参考訳(メタデータ) (2024-06-11T16:23:33Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Calibration-then-Calculation: A Variance Reduced Metric Framework in Deep Click-Through Rate Prediction Models [16.308958212406583]
ディープラーニングパイプラインのパフォーマンス評価に重点が置かれていない。
大きなデータセットと複雑なモデルの使用が増えると、トレーニングプロセスは一度だけ実行され、その結果は以前のベンチマークと比較される。
トレーニングプロセスを複数回実行するような従来のソリューションは、計算上の制約のため、しばしば実現不可能である。
本稿では,従来からある分散を低減し,この問題に対処するために設計された新しい計量フレームワークCalibrated Loss Metricを紹介する。
論文 参考訳(メタデータ) (2024-01-30T02:38:23Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。