論文の概要: Generalization or Memorization: Data Contamination and Trustworthy
Evaluation for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.15938v1
- Date: Sat, 24 Feb 2024 23:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:09:27.810294
- Title: Generalization or Memorization: Data Contamination and Trustworthy
Evaluation for Large Language Models
- Title(参考訳): 一般化・記憶:大規模言語モデルにおけるデータ汚染と信頼できる評価
- Authors: Yihong Dong, Xue Jiang, Huanyu Liu, Zhi Jin, and Ge Li
- Abstract要約: CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
- 参考スコア(独自算出の注目度): 34.60647883219719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent statements about the impressive capabilities of large language models
(LLMs) are usually supported by evaluating on open-access benchmarks.
Considering the vast size and wide-ranging sources of LLMs' training data, it
could explicitly or implicitly include test data, leading to LLMs being more
susceptible to data contamination. However, due to the opacity of training
data, the black-box access of models, and the rapid growth of synthetic
training data, detecting and mitigating data contamination for LLMs faces
significant challenges. In this paper, we propose CDD, which stands for
Contamination Detection via output Distribution for LLMs. CDD necessitates only
the sampled texts to detect data contamination, by identifying the peakedness
of LLM's output distribution. To mitigate the impact of data contamination in
evaluation, we also present TED: Trustworthy Evaluation via output
Distribution, based on the correction of LLM's output distribution. To
facilitate this study, we introduce two benchmarks, i.e., DetCon and ComiEval,
for data contamination detection and contamination mitigation evaluation tasks.
Extensive experimental results show that CDD achieves the average relative
improvements of 21.8\%-30.2\% over other contamination detection approaches in
terms of Accuracy, F1 Score, and AUC metrics, and can effectively detect
contamination caused by the variants of test data. TED significantly mitigates
performance improvements up to 66.9\% attributed to data contamination across
24 settings and 21 contamination degrees. In real-world applications, we reveal
that ChatGPT exhibits a high potential to suffer from data contamination on
HumanEval benchmark.
- Abstract(参考訳): 大規模言語モデル(LLM)の印象的な機能に関する最近のステートメントは、通常、オープンアクセスベンチマークで評価される。
LLMのトレーニングデータの膨大なサイズと広範囲のソースを考えると、明示的にまたは暗黙的にテストデータを含めることができるため、LSMはデータ汚染の影響を受けやすい。
しかし、トレーニングデータの不透明さ、モデルのブラックボックスアクセス、および合成トレーニングデータの急速な成長により、LLMのデータ汚染の検出と緩和は重大な課題に直面している。
本稿では,LCMの出力分布による汚染検出を行うCDDを提案する。
CDDは、LLMの出力分布のピーク性を特定することによって、データの汚染を検出するためにサンプルテキストのみを必要とする。
評価におけるデータ汚染の影響を軽減するため, LLMの出力分布の補正に基づいて, 出力分布による信頼に値する評価を行う。
本研究では,データ汚染検出と汚染緩和評価タスクのための2つのベンチマーク,すなわちdetconとcomievalを導入する。
広範な実験結果から,cddは他の汚染検出手法と比較して,精度,f1スコア,auc指標において平均21.8\%-30.2\%の改善を達成でき,試験データの変異による汚染を効果的に検出できることがわかった。
TEDは、データ汚染による最大66.9 %の性能改善を24の設定と21の汚染度で大幅に軽減している。
実世界の応用において,ChatGPTはHumanEvalベンチマークでデータ汚染に悩む可能性が高いことが明らかになった。
関連論文リスト
- KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large
Language Models [55.8717261687206]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Investigating Data Contamination for Pre-training Language Models [46.335755305642564]
我々は,一連のGPT-2モデルを事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。
評価データから,テキスト汚染 (テキスト, 評価サンプルの入力テキスト) と接地トラス汚染 (テキスト, 入力に要求されるプロンプトと所望の出力) の両方の効果を強調した。
論文 参考訳(メタデータ) (2024-01-11T17:24:49Z) - Interpretable Causal Inference for Analyzing Wearable, Sensor, and
Distributional Data [67.12679988697792]
本研究では,信頼性とロバストな意思決定を確実にする,分散データ解析の解釈可能な手法を開発した。
ADD MALTSの有用性について,糖尿病リスク軽減のための連続グルコースモニターの有効性について検討した。
論文 参考訳(メタデータ) (2023-12-17T00:42:42Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - Time Travel in LLMs: Tracing Data Contamination in Large Language Models [29.56037518816495]
本稿では,大規模言語モデル(LLM)におけるデータ汚染の簡易かつ効果的な同定法を提案する。
私たちのアプローチの中核は、インスタンスレベルで潜在的汚染を特定することから始まります。
個別インスタンスの汚染を推定するために、データセット名、パーティションタイプ、参照インスタンスのランダム長初期セグメントからなるプロンプト「誘導命令」を用いる。
論文 参考訳(メタデータ) (2023-08-16T16:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。