論文の概要: Training on the Benchmark Is Not All You Need
- arxiv url: http://arxiv.org/abs/2409.01790v1
- Date: Tue, 3 Sep 2024 11:09:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 02:01:57.453595
- Title: Training on the Benchmark Is Not All You Need
- Title(参考訳): ベンチマークのトレーニングは必要なだけではない
- Authors: Shiwen Ni, Xiangtao Kong, Chengming Li, Xiping Hu, Ruifeng Xu, Jia Zhu, Min Yang,
- Abstract要約: 本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
- 参考スコア(独自算出の注目度): 52.01920740114261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of Large Language Models (LLMs) relies heavily on the huge amount of pre-training data learned in the pre-training phase. The opacity of the pre-training process and the training data causes the results of many benchmark tests to become unreliable. If any model has been trained on a benchmark test set, it can seriously hinder the health of the field. In order to automate and efficiently test the capabilities of large language models, numerous mainstream benchmarks adopt a multiple-choice format. As the swapping of the contents of multiple-choice options does not affect the meaning of the question itself, we propose a simple and effective data leakage detection method based on this property. Specifically, we shuffle the contents of the options in the data to generate the corresponding derived data sets, and then detect data leakage based on the model's log probability distribution over the derived data sets. If there is a maximum and outlier in the set of log probabilities, it indicates that the data is leaked. Our method is able to work under black-box conditions without access to model training data or weights, effectively identifying data leakage from benchmark test sets in model pre-training data, including both normal scenarios and complex scenarios where options may have been shuffled intentionally or unintentionally. Through experiments based on two LLMs and benchmark designs, we demonstrate the effectiveness of our method. In addition, we evaluate the degree of data leakage of 31 mainstream open-source LLMs on four benchmark datasets and give a ranking of the leaked LLMs for each benchmark, and we find that the Qwen family of LLMs has the highest degree of data leakage.
- Abstract(参考訳): LLM(Large Language Models)の成功は、事前学習フェーズで学んだ大量の事前学習データに大きく依存している。
事前トレーニングプロセスとトレーニングデータの不透明さは、多くのベンチマークテストの結果を信頼できないものにする。
任意のモデルがベンチマークテストセットでトレーニングされた場合、フィールドの健全性を著しく損なう可能性がある。
大規模言語モデルの機能を自動化し、効率的にテストするために、多くの主要なベンチマークでは、多重選択形式を採用している。
複数選択オプションの内容のスワップは質問自体の意味に影響を与えないため,この特性に基づいた単純かつ効果的なデータ漏洩検出法を提案する。
具体的には、データ内のオプションの内容をシャッフルして対応する導出データセットを生成し、導出データセット上のモデルのログ確率分布に基づいてデータ漏洩を検出する。
ログ確率のセットに最大値と外れ値がある場合、データはリークされる。
提案手法は,モデルトレーニングデータやウェイトにアクセスせずにブラックボックス条件下で動作可能で,モデル事前学習データにおけるベンチマークテストセットからのデータの漏洩を効果的に識別することができる。
2つのLCMとベンチマーク設計に基づく実験により,本手法の有効性を実証した。
さらに、4つのベンチマークデータセット上で、31の主流オープンソースLLMのデータリークの度合いを評価し、各ベンチマークのリークLDMのランク付けを行い、QwenファミリーのLSMがデータリークの度合いが最も高いことを確認した。
関連論文リスト
- Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Probing Language Models for Pre-training Data Detection [11.37731401086372]
本稿では,モデルの内部アクティベーションを調べることで,事前学習データ検出のための探索手法を提案する。
我々の手法はシンプルで効果的であり、より信頼性の高い事前学習データ検出につながる。
論文 参考訳(メタデータ) (2024-06-03T13:58:04Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models [25.022166664832596]
本研究では,大規模言語モデル(LLM)におけるデータ汚染を簡易かつ効果的に検出し,その量を推定する手法を提案する。
我々は、複数の質問の連続としてデータ汚染検出をフレーム化し、特定のデータセット分割から各サブサンプルインスタンスの3つの摂動バージョンを作成するクイズ形式を考案する。
以上の結果から,DCQは現状の成果を達成し,既存の方法に比べて汚染・記憶レベルが高いことが示唆された。
論文 参考訳(メタデータ) (2023-11-10T18:48:58Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Bayesian Active Learning with Pretrained Language Models [9.161353418331245]
Active Learning (AL)は、ラベルなしデータのプールからアノテーションのためのデータを反復的に選択する手法である。
以前のALアプローチは、イテレーションごとにゼロからトレーニングされるタスク固有のモデルに制限されている。
BALM;Bayesian Active Learning with pretrained language modelを紹介します。
論文 参考訳(メタデータ) (2021-04-16T19:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。