論文の概要: Time Travel in LLMs: Tracing Data Contamination in Large Language Models
- arxiv url: http://arxiv.org/abs/2308.08493v1
- Date: Wed, 16 Aug 2023 16:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:36:45.994573
- Title: Time Travel in LLMs: Tracing Data Contamination in Large Language Models
- Title(参考訳): LLMにおける時間旅行:大規模言語モデルにおけるデータ汚染の追跡
- Authors: Shahriar Golchin, Mihai Surdeanu
- Abstract要約: 本研究では,大規模言語モデルにおけるデータ汚染の簡易かつ効果的な同定法を提案する。
我々のアプローチは、小さなランダムサンプルから引き出された個々のインスタンスの潜在的な汚染を特定することから始まる。
LLMが7つのデータセットで汚染されているかどうかを92%から100%の精度で検出する。
- 参考スコア(独自算出の注目度): 29.56037518816495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data contamination, i.e., the presence of test data from downstream tasks in
the training data of large language models (LLMs), is a potential major issue
in understanding LLMs' effectiveness on other tasks. We propose a
straightforward yet effective method for identifying data contamination within
LLMs. At its core, our approach starts by identifying potential contamination
in individual instances that are drawn from a small random sample; using this
information, our approach then assesses if an entire dataset partition is
contaminated. To estimate contamination of individual instances, we employ
"guided instruction:" a prompt consisting of the dataset name, partition type,
and the initial segment of a reference instance, asking the LLM to complete it.
An instance is flagged as contaminated if the LLM's output either exactly or
closely matches the latter segment of the reference. To understand if an entire
partition is contaminated, we propose two ideas. The first idea marks a dataset
partition as contaminated if the average overlap score with the reference
instances (as measured by ROUGE or BLEURT) is statistically significantly
better with the guided instruction vs. a general instruction that does not
include the dataset and partition name. The second idea marks a dataset as
contaminated if a classifier based on GPT-4 with in-context learning prompting
marks multiple instances as contaminated. Our best method achieves an accuracy
between 92% and 100% in detecting if an LLM is contaminated with seven
datasets, containing train and test/validation partitions, when contrasted with
manual evaluation by human expert. Further, our findings indicate that GPT-4 is
contaminated with AG News, WNLI, and XSum datasets.
- Abstract(参考訳): データ汚染、すなわち、大規模言語モデル(LLM)のトレーニングデータにおける下流タスクからのテストデータの存在は、他のタスクにおけるLLMの有効性を理解する上で潜在的に大きな問題である。
LLM内のデータ汚染を簡易かつ効果的に識別する手法を提案する。
その中心となるアプローチは、小さなランダムサンプルから引き出された個々のインスタンスの潜在的汚染を特定することから始まり、この情報を用いて、データセットのパーティション全体が汚染されているかどうかを評価する。
個別インスタンスの汚染を推定するために、データセット名、パーティションタイプ、参照インスタンスの初期セグメントからなるプロンプト「誘導命令:」を使用し、LCMにそれを完了するように要求する。
LLMの出力が参照の後半部分と正確にあるいは密接に一致した場合、インスタンスは汚染されるとフラグ付けされる。
パーティション全体が汚染されているかどうかを理解するために,2つのアイデアを提案する。
最初のアイデアは、参照インスタンスと平均オーバーラップスコア(ROUGEまたはBLEURTで測定される)が、データセットとパーティション名を含まない一般的な命令よりも統計的に有意に優れている場合、データセット分割が汚染されたことを示す。
第2のアイデアは、GPT-4に基づく分類器がコンテキスト内学習を促進させ、複数のインスタンスが汚染された場合にデータセットが汚染されたことを示す。
提案手法は,人間エキスパートによる手作業による評価と対比して,列車や試験・評価の分割を含む7つのデータセットでllmが汚染されているかどうかを92%から100%の精度で検出できる。
さらに, GPT-4はAG News, WNLI, XSumデータセットで汚染されていることが示唆された。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - On Inter-dataset Code Duplication and Data Leakage in Large Language Models [4.148857672591562]
本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。
この結果から,複数のSEタスクにまたがるLCMの評価は,データ間重複現象に起因する可能性が示唆された。
オープンソースモデルがデータセット間の重複に影響される可能性があることを示す。
論文 参考訳(メタデータ) (2024-01-15T19:46:40Z) - Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models [25.022166664832596]
本研究では,大規模言語モデル(LLM)におけるデータ汚染を簡易かつ効果的に検出し,その量を推定する手法を提案する。
我々は、複数の質問の連続としてデータ汚染検出をフレーム化し、特定のデータセット分割から各サブサンプルインスタンスの3つの摂動バージョンを作成するクイズ形式を考案する。
以上の結果から,DCQは現状の成果を達成し,既存の方法に比べて汚染・記憶レベルが高いことが示唆された。
論文 参考訳(メタデータ) (2023-11-10T18:48:58Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。