論文の概要: Time Travel in LLMs: Tracing Data Contamination in Large Language Models
- arxiv url: http://arxiv.org/abs/2308.08493v2
- Date: Sun, 1 Oct 2023 09:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 13:21:25.734411
- Title: Time Travel in LLMs: Tracing Data Contamination in Large Language Models
- Title(参考訳): LLMにおける時間旅行:大規模言語モデルにおけるデータ汚染の追跡
- Authors: Shahriar Golchin, Mihai Surdeanu
- Abstract要約: 本稿では,大規模言語モデル(LLM)におけるデータ汚染の簡易かつ効果的な同定法を提案する。
私たちのアプローチの中核は、インスタンスレベルで潜在的汚染を特定することから始まります。
個別インスタンスの汚染を推定するために、データセット名、パーティションタイプ、参照インスタンスのランダム長初期セグメントからなるプロンプト「誘導命令」を用いる。
- 参考スコア(独自算出の注目度): 29.56037518816495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data contamination, i.e., the presence of test data from downstream tasks in
the training data of large language models (LLMs), is a potential major issue
in measuring LLMs' real effectiveness on other tasks. We propose a
straightforward yet effective method for identifying data contamination within
LLMs. At its core, our approach starts by identifying potential contamination
at the instance level; using this information, our approach then assesses wider
contamination at the partition level. To estimate contamination of individual
instances, we employ "guided instruction:" a prompt consisting of the dataset
name, partition type, and the random-length initial segment of a reference
instance, asking the LLM to complete it. An instance is flagged as contaminated
if the LLM's output either exactly or nearly matches the latter segment of the
reference. To understand if an entire partition is contaminated, we propose two
ideas. The first idea marks a dataset partition as contaminated if the average
overlap score with the reference instances (as measured by ROUGE-L or BLEURT)
is statistically significantly better with the completions from guided
instruction compared to a "general instruction" that does not include the
dataset and partition name. The second idea marks a dataset partition as
contaminated if a classifier based on GPT-4 with few-shot in-context learning
prompt marks multiple generated completions as exact/near-exact matches of the
corresponding reference instances. Our best method achieves an accuracy between
92% and 100% in detecting if an LLM is contaminated with seven datasets,
containing train and test/validation partitions, when contrasted with manual
evaluation by human experts. Further, our findings indicate that GPT-4 is
contaminated with AG News, WNLI, and XSum datasets.
- Abstract(参考訳): データ汚染、すなわち、大規模言語モデル(LLM)のトレーニングデータにおける下流タスクからのテストデータの存在は、他のタスクにおけるLLMの実効性を測定する上で潜在的に大きな問題である。
LLM内のデータ汚染を簡易かつ効果的に識別する手法を提案する。
我々のアプローチは、インスタンスレベルでの潜在的汚染を特定することから始まり、この情報を用いて分割レベルで広範囲の汚染を評価する。
個々のインスタンスの汚染を推定するために、データセット名、パーティションタイプ、参照インスタンスのランダム長の初期セグメントからなるプロンプト "guided instruction:" を用いて、llmに完了を依頼する。
LLMの出力が参照の後半部分と正確にあるいはほぼ一致する場合、インスタンスは汚染されるとフラグ付けされる。
パーティション全体が汚染されているかどうかを理解するために,2つのアイデアを提案する。
最初のアイデアは、参照インスタンスと平均オーバーラップスコア(ROUGE-LまたはBLEURTで測定される)が、データセットとパーティション名を含まない"ジェネラルインストラクション"に比べて、ガイドされた命令の完了によって統計的に有意に優れている場合、データセットパーティションが汚染されたことを示す。
第2のアイデアは、データセット分割が汚染されているとマークする。 gpt-4に基づく分類器が、コンテキスト内学習プロンプトで、複数の生成された完了を、対応する参照インスタンスの正確/近距離マッチングとしてマークする。
提案手法は,人間の専門家による手作業による評価と対比して,列車や試験・評価の分割を含む7つのデータセットでllmが汚染されているかどうかを92%から100%の精度で検出できる。
さらに, GPT-4はAG News, WNLI, XSumデータセットで汚染されていることが示唆された。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - On Inter-dataset Code Duplication and Data Leakage in Large Language Models [4.148857672591562]
本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。
この結果から,複数のSEタスクにまたがるLCMの評価は,データ間重複現象に起因する可能性が示唆された。
オープンソースモデルがデータセット間の重複に影響される可能性があることを示す。
論文 参考訳(メタデータ) (2024-01-15T19:46:40Z) - Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models [25.022166664832596]
本研究では,大規模言語モデル(LLM)におけるデータ汚染を簡易かつ効果的に検出し,その量を推定する手法を提案する。
我々は、複数の質問の連続としてデータ汚染検出をフレーム化し、特定のデータセット分割から各サブサンプルインスタンスの3つの摂動バージョンを作成するクイズ形式を考案する。
以上の結果から,DCQは現状の成果を達成し,既存の方法に比べて汚染・記憶レベルが高いことが示唆された。
論文 参考訳(メタデータ) (2023-11-10T18:48:58Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。