論文の概要: Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in
Closed-Source LLMs
- arxiv url: http://arxiv.org/abs/2402.03927v1
- Date: Tue, 6 Feb 2024 11:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 15:08:04.342289
- Title: Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in
Closed-Source LLMs
- Title(参考訳): リーク, チート, リピート: クローズドソースLCMにおけるデータ汚染とその評価
- Authors: Simone Balloccu, Patr\'icia Schmidtov\'a, Mateusz Lango, and
Ond\v{r}ej Du\v{s}ek
- Abstract要約: 我々は OpenAI の GPT-3.5 と GPT-4 を用いた最初の系統解析を行った。
モデルのリリース後最初の1年間に、これらのモデルにリークされたデータ量について文書化します。
我々はこれらのモデルが263ベンチマークから$sim$4.7Mのサンプルに世界中で公開されていることを報告した。
- 参考スコア(独自算出の注目度): 5.310555620116225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Processing (NLP) research is increasingly focusing on the
use of Large Language Models (LLMs), with some of the most popular ones being
either fully or partially closed-source. The lack of access to model details,
especially regarding training data, has repeatedly raised concerns about data
contamination among researchers. Several attempts have been made to address
this issue, but they are limited to anecdotal evidence and trial and error.
Additionally, they overlook the problem of \emph{indirect} data leaking, where
models are iteratively improved by using data coming from users. In this work,
we conduct the first systematic analysis of work using OpenAI's GPT-3.5 and
GPT-4, the most prominently used LLMs today, in the context of data
contamination. By analysing 255 papers and considering OpenAI's data usage
policy, we extensively document the amount of data leaked to these models
during the first year after the model's release. We report that these models
have been globally exposed to $\sim$4.7M samples from 263 benchmarks. At the
same time, we document a number of evaluation malpractices emerging in the
reviewed papers, such as unfair or missing baseline comparisons and
reproducibility issues. We release our results as a collaborative project on
https://leak-llm.github.io/, where other researchers can contribute to our
efforts.
- Abstract(参考訳): 自然言語処理(NLP)の研究は、Large Language Models(LLM)の使用にますます焦点を当てている。
モデルの詳細、特にトレーニングデータへのアクセスの欠如は、研究者の間でデータ汚染に関する懸念を繰り返している。
この問題に対処する試みはいくつかあるが、これは逸話的証拠や試行錯誤に限られている。
さらに、ユーザから来るデータを使用することで、モデルが反復的に改善される、‘emph{indirect}データリーク’という問題も見落としている。
本研究では,OpenAI の GPT-3.5 と GPT-4 を用いて,データ汚染の文脈において最も顕著な LLM を用いた最初の系統解析を行った。
255の論文を分析し、OpenAIのデータ利用ポリシーを考慮して、モデルのリリース後最初の1年間にこれらのモデルにリークしたデータの量を広範囲に文書化します。
これらのモデルが263のベンチマークから$\sim$4.7mのサンプルにさらされていると報告した。
同時に,不公平な比較や欠落したベースライン比較,再現可能性問題など,レビュー論文に現れる数多くの評価誤りを文書化する。
私たちはその結果をhttps://leak-llm.github.io/で共同プロジェクトとしてリリースしています。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library [68.10605098856087]
大規模言語モデル(LLM)は、ビジネスアプリケーションやAIの資金調達でますます利用されている。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
我々はLLMSanitizeというオープンソースのPythonライブラリをリリースし、主要な汚染検知アルゴリズムを実装した。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - Second-Order Information Matters: Revisiting Machine Unlearning for Large Language Models [1.443696537295348]
プライバシーの漏洩と著作権侵害はまだ未発見だ。
我々の未学習のアルゴリズムは、データに依存しない/モデルに依存しないだけでなく、ユーティリティの保存やプライバシー保証の観点からも堅牢であることが証明されている。
論文 参考訳(メタデータ) (2024-03-13T18:57:30Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging
Applications [20.339673903885483]
大規模言語モデル(LLM)は、強力な自然言語処理とコード合成機能を示している。
LLMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。
このデータセットには、OpenAIデータカットオフポイント後に収集された76の現実世界のJavaバグが含まれている。
論文 参考訳(メタデータ) (2023-10-20T02:37:44Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Data Contamination: From Memorization to Exploitation [5.997909991352044]
下流タスクにおいて、モデルがどのように汚染されたデータを悪用しているかは明らかではない。
我々は、ウィキペディアの共同コーパスでBERTモデルを事前訓練し、下流データセットをラベル付けし、関連するタスクでそれらを微調整する。
2つのモデルと3つのダウンストリームタスクによる実験では、いくつかのケースでは悪用が存在するが、他のケースでは、汚染されたデータを記憶しているが、悪用しない。
論文 参考訳(メタデータ) (2022-03-15T20:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。