論文の概要: Investigating Data Contamination in Modern Benchmarks for Large Language
Models
- arxiv url: http://arxiv.org/abs/2311.09783v1
- Date: Thu, 16 Nov 2023 11:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:58:23.241287
- Title: Investigating Data Contamination in Modern Benchmarks for Large Language
Models
- Title(参考訳): 大規模言語モデルの現代ベンチマークにおけるデータ汚染の調査
- Authors: Chunyuan Deng, Yilun Zhao, Xiangru Tang, Mark Gerstein, Arman Cohan
- Abstract要約: 近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
- 参考スコア(独自算出の注目度): 29.48101352768151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent observations have underscored a disparity between the inflated
benchmark scores and the actual performance of LLMs, raising concerns about
potential contamination of evaluation benchmarks. This issue is especially
critical for closed-source models and certain open-source models where training
data transparency is lacking. In this paper we study data contamination by
proposing two methods tailored for both open-source and proprietary LLMs. We
first introduce a retrieval-based system to explore potential overlaps between
evaluation benchmarks and pretraining corpora. We further present a novel
investigation protocol named \textbf{T}estset \textbf{S}lot Guessing
(\textit{TS-Guessing}), applicable to both open and proprietary models. This
approach entails masking a wrong answer in a multiple-choice question and
prompting the model to fill in the gap. Additionally, it involves obscuring an
unlikely word in an evaluation example and asking the model to produce it. We
find that certain commercial LLMs could surprisingly guess the missing option
in various test sets. Specifically, in the TruthfulQA benchmark, we find that
LLMs exhibit notable performance improvement when provided with additional
metadata in the benchmark. Further, in the MMLU benchmark, ChatGPT and GPT-4
demonstrated an exact match rate of 52\% and 57\%, respectively, in guessing
the missing options in benchmark test data. We hope these results underscore
the need for more robust evaluation methodologies and benchmarks in the field.
- Abstract(参考訳): 近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けており、評価ベンチマークの汚染の可能性への懸念が高まっている。
この問題は、トレーニングデータの透明性が欠如しているクローズドソースモデルや特定のオープンソースモデルにとって特に重要である。
本稿では,オープンソースLLMとプロプライエタリLLMの両方に適した2つの手法を提案する。
まず,評価ベンチマークと事前学習コーパスの重なりを探索する検索ベースシステムを提案する。
さらに、オープンモデルとプロプライエタリモデルの両方に適用可能な、新しい調査プロトコルである \textbf{T}estset \textbf{S}lot Guessing (\textit{TS-Guessing})を提案する。
このアプローチでは、複数の選択の質問で間違った回答をマスキングし、モデルにギャップを埋めるよう促す。
さらに、評価例ではありそうにない単語を省略し、モデルにそれを生成するように要求する。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
具体的には、TruthfulQAベンチマークにおいて、LLMは、ベンチマークに追加メタデータを提供すると、顕著なパフォーマンス向上を示す。
さらに、MMLUベンチマークでは、ベンチマークテストデータに欠けているオプションを推測するために、ChatGPTとGPT-4がそれぞれ52\%と57\%の正確な一致率を示した。
これらの結果は、この分野におけるより堅牢な評価手法とベンチマークの必要性を裏付けるものと期待している。
関連論文リスト
- Benchmarking Benchmark Leakage in Large Language Models [24.015208839742343]
本稿では,モデル予測精度をベンチマークで評価する2つの単純かつスケーラブルな指標であるPerplexityとN-gramの精度を利用した検出パイプラインを提案する。
テストセットの誤用さえも、トレーニングのかなりの例を明らかにし、潜在的に不公平な比較を行う。
ベンチマーク利用の明確なドキュメンテーションを促進するために,ベンチマーク透明性カードを提案する。
論文 参考訳(メタデータ) (2024-04-29T16:05:36Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Private Benchmarking to Prevent Contamination and Improve Comparative
Evaluation of LLMs [14.064230826683085]
テストデータセットをプライベートに保持し、モデルにテストデータを公開せずにモデルを評価するソリューションであるPrivate Benchmarkingを提案する。
モデル所有者やデータセット所有者の信頼度に依存する)様々なシナリオを説明し、プライベートベンチマークによるデータの汚染を避けるためのソリューションを提示します。
論文 参考訳(メタデータ) (2024-03-01T09:28:38Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。