論文の概要: Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks
- arxiv url: http://arxiv.org/abs/2404.16966v2
- Date: Wed, 5 Jun 2024 20:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 20:33:09.145101
- Title: Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks
- Title(参考訳): LLM評価のロバスト性の評価とベンチマークの分布推定
- Authors: Melissa Ailem, Katerina Marazopoulou, Charlotte Siska, James Bono,
- Abstract要約: 調査コミュニティは、しばしばモデルの性能を評価するために、ベンチマークの試験プロンプト全体にわたるモデルの平均パフォーマンスに依存します。
これは、ベンチマーク内のテストプロンプトが実世界の関心の分布からランダムなサンプルを表すという仮定と一致している。
その結果,(1)テストプロンプト間のモデル性能の相関は非ランダムであり,(2)テストプロンプト間の相関を考慮すれば,主要なベンチマーク上でモデルランキングを変更でき,(3)セマンティックな類似性や共通LLM障害点を含む説明的要因が得られた。
- 参考スコア(独自算出の注目度): 2.1899189033259305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks have emerged as the central approach for evaluating Large Language Models (LLMs). The research community often relies on a model's average performance across the test prompts of a benchmark to evaluate the model's performance. This is consistent with the assumption that the test prompts within a benchmark represent a random sample from a real-world distribution of interest. We note that this is generally not the case; instead, we hold that the distribution of interest varies according to the specific use case. We find that (1) the correlation in model performance across test prompts is non-random, (2) accounting for correlations across test prompts can change model rankings on major benchmarks, (3) explanatory factors for these correlations include semantic similarity and common LLM failure points.
- Abstract(参考訳): ベンチマークは、LLM(Large Language Models)を評価するための中心的なアプローチとして登場した。
調査コミュニティは、しばしばモデルの性能を評価するために、ベンチマークの試験プロンプト全体にわたるモデルの平均パフォーマンスに依存します。
これは、ベンチマーク内のテストプロンプトが実世界の関心の分布からランダムなサンプルを表すという仮定と一致している。
これは一般的にはそうではありませんが、代わりに特定のユースケースによって関心の分布が異なります。
1) テストプロンプト間のモデル性能の相関は非ランダムであり,(2) テストプロンプト間の相関を考慮すれば,主要なベンチマーク上でモデルランキングを変更することができる。
関連論文リスト
- PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文 参考訳(メタデータ) (2024-06-26T13:12:40Z) - Assessing Model Generalization in Vicinity [34.86022681163714]
本稿では, 分布外テストセットにおける分類モデルの一般化能力について, 基礎的真理ラベルに依存することなく評価する。
そこで本研究では,各試料の正当性評価に,隣り合う試験試料からの応答を取り入れることを提案する。
結果のスコアは、すべてのテストサンプルで平均化され、モデル精度の全体像が示される。
論文 参考訳(メタデータ) (2024-06-13T15:58:37Z) - Generalization Ability of Feature-based Performance Prediction Models: A Statistical Analysis across Benchmarks [5.170967632369504]
本研究では,問題収集の統計的類似性と,探索ランドスケープ解析の特徴に基づく性能予測モデルの精度を比較した。
この2つの尺度には正の相関関係があることが観察された。
具体的には、トレーニングスイートとテストスイート間の高次元特徴値分布に統計的意義が欠如している場合、モデルをうまく一般化する傾向にある。
論文 参考訳(メタデータ) (2024-05-20T12:39:24Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation
using Generative Models [74.43215520371506]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Achieving Equalized Odds by Resampling Sensitive Attributes [13.114114427206678]
等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。
この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。
本研究は,予測規則が本性質に反するか否かを検出するための公式な仮説テストを開発する。
論文 参考訳(メタデータ) (2020-06-08T00:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。