論文の概要: ConStat: Performance-Based Contamination Detection in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.16281v1
- Date: Sat, 25 May 2024 15:36:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 22:07:19.361621
- Title: ConStat: Performance-Based Contamination Detection in Large Language Models
- Title(参考訳): ConStat: 大規模言語モデルにおけるパフォーマンスベース汚染検出
- Authors: Jasper Dekoninck, Mark Niklas Müller, Martin Vechev,
- Abstract要約: コンスタット(ConStat)は、参照モデルの集合に対する一次ベンチマークと参照ベンチマークのパフォーマンスを比較することで、汚染を確実に検出し、定量化する統計手法である。
多様なモデルアーキテクチャ,ベンチマーク,汚染シナリオの広範な評価において,ConStatの有効性を実証する。
- 参考スコア(独自算出の注目度): 7.305342793164905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Public benchmarks play an essential role in the evaluation of large language models. However, data contamination can lead to inflated performance, rendering them unreliable for model comparison. It is therefore crucial to detect contamination and estimate its impact on measured performance. Unfortunately, existing detection methods can be easily evaded and fail to quantify contamination. To overcome these limitations, we propose a novel definition of contamination as artificially inflated and non-generalizing benchmark performance instead of the inclusion of benchmark samples in the training data. This perspective enables us to detect any model with inflated performance, i.e., performance that does not generalize to rephrased samples, synthetic samples from the same distribution, or different benchmarks for the same task. Based on this insight, we develop ConStat, a statistical method that reliably detects and quantifies contamination by comparing performance between a primary and reference benchmark relative to a set of reference models. We demonstrate the effectiveness of ConStat in an extensive evaluation of diverse model architectures, benchmarks, and contamination scenarios and find high levels of contamination in multiple popular models including Mistral, Llama, Yi, and the top-3 Open LLM Leaderboard models.
- Abstract(参考訳): 公開ベンチマークは、大規模言語モデルの評価において重要な役割を果たす。
しかし、データ汚染は膨らませた性能をもたらす可能性があり、モデルの比較では信頼できない。
したがって, 汚染を検知し, 測定性能への影響を推定することが重要である。
残念ながら、既存の検出方法は簡単に回避でき、汚染の定量化に失敗する。
これらの制約を克服するため、トレーニングデータにベンチマークサンプルを含めるのではなく、人工的に膨らませて一般化しないベンチマーク性能として汚染の新たな定義を提案する。
このパースペクティブにより、インフレーションされたパフォーマンスを持つモデル、すなわち、言い換えられたサンプル、同じ分布から合成されたサンプル、または同じタスクの異なるベンチマークに一般化しないパフォーマンスを検出できる。
この知見に基づいて,参照モデルの集合に対する一次ベンチマークと参照ベンチマークのパフォーマンスを比較することにより,汚染を確実に検出し,定量化する統計手法であるConStatを開発した。
本研究では,多種多様なモデルアーキテクチャ,ベンチマーク,汚染シナリオの広範な評価においてConStatの有効性を実証し,Mistral,Llama,Yi,Open LLM Leaderboardの上位3モデルを含む複数の人気モデルにおいて高い汚染レベルを求める。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文 参考訳(メタデータ) (2024-06-26T13:12:40Z) - Evading Data Contamination Detection for Language Models is (too) Easy [9.024665800235855]
大規模な言語モデルは、必然的に公開ベンチマークによる汚染につながる可能性がある。
本稿では,モデルプロバイダと汚染検出手法の両方の分類を提案する。
これは、私たちがEALで活用している既存のメソッドの脆弱性を明らかにします。
論文 参考訳(メタデータ) (2024-02-05T09:10:32Z) - Estimating Model Performance Under Covariate Shift Without Labels [9.804680621164168]
ラベルなしデータの分類モデルを評価するために,確率的適応性能推定(PAPE)を導入する。
PAPEは他の評価手法よりも正確な性能推定を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:29:30Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - An Open Source Data Contamination Report for Large Language Models [21.553915781660905]
本稿では,15以上のポピュラーな大言語モデルを対象とした広範囲なデータ汚染レポートを提案する。
我々はまた、コミュニティがカスタマイズされたデータやモデル上で汚染分析を行うことを可能にするオープンソースのパイプラインも導入した。
論文 参考訳(メタデータ) (2023-10-26T17:11:42Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Fake It Till You Make It: Near-Distribution Novelty Detection by
Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。
本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。
本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文 参考訳(メタデータ) (2022-05-28T02:02:53Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。