論文の概要: Time Travel in LLMs: Tracing Data Contamination in Large Language Models
- arxiv url: http://arxiv.org/abs/2308.08493v1
- Date: Wed, 16 Aug 2023 16:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:36:45.994573
- Title: Time Travel in LLMs: Tracing Data Contamination in Large Language Models
- Title(参考訳): LLMにおける時間旅行:大規模言語モデルにおけるデータ汚染の追跡
- Authors: Shahriar Golchin, Mihai Surdeanu
- Abstract要約: 本研究では,大規模言語モデルにおけるデータ汚染の簡易かつ効果的な同定法を提案する。
我々のアプローチは、小さなランダムサンプルから引き出された個々のインスタンスの潜在的な汚染を特定することから始まる。
LLMが7つのデータセットで汚染されているかどうかを92%から100%の精度で検出する。
- 参考スコア(独自算出の注目度): 29.56037518816495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data contamination, i.e., the presence of test data from downstream tasks in
the training data of large language models (LLMs), is a potential major issue
in understanding LLMs' effectiveness on other tasks. We propose a
straightforward yet effective method for identifying data contamination within
LLMs. At its core, our approach starts by identifying potential contamination
in individual instances that are drawn from a small random sample; using this
information, our approach then assesses if an entire dataset partition is
contaminated. To estimate contamination of individual instances, we employ
"guided instruction:" a prompt consisting of the dataset name, partition type,
and the initial segment of a reference instance, asking the LLM to complete it.
An instance is flagged as contaminated if the LLM's output either exactly or
closely matches the latter segment of the reference. To understand if an entire
partition is contaminated, we propose two ideas. The first idea marks a dataset
partition as contaminated if the average overlap score with the reference
instances (as measured by ROUGE or BLEURT) is statistically significantly
better with the guided instruction vs. a general instruction that does not
include the dataset and partition name. The second idea marks a dataset as
contaminated if a classifier based on GPT-4 with in-context learning prompting
marks multiple instances as contaminated. Our best method achieves an accuracy
between 92% and 100% in detecting if an LLM is contaminated with seven
datasets, containing train and test/validation partitions, when contrasted with
manual evaluation by human expert. Further, our findings indicate that GPT-4 is
contaminated with AG News, WNLI, and XSum datasets.
- Abstract(参考訳): データ汚染、すなわち、大規模言語モデル(LLM)のトレーニングデータにおける下流タスクからのテストデータの存在は、他のタスクにおけるLLMの有効性を理解する上で潜在的に大きな問題である。
LLM内のデータ汚染を簡易かつ効果的に識別する手法を提案する。
その中心となるアプローチは、小さなランダムサンプルから引き出された個々のインスタンスの潜在的汚染を特定することから始まり、この情報を用いて、データセットのパーティション全体が汚染されているかどうかを評価する。
個別インスタンスの汚染を推定するために、データセット名、パーティションタイプ、参照インスタンスの初期セグメントからなるプロンプト「誘導命令:」を使用し、LCMにそれを完了するように要求する。
LLMの出力が参照の後半部分と正確にあるいは密接に一致した場合、インスタンスは汚染されるとフラグ付けされる。
パーティション全体が汚染されているかどうかを理解するために,2つのアイデアを提案する。
最初のアイデアは、参照インスタンスと平均オーバーラップスコア(ROUGEまたはBLEURTで測定される)が、データセットとパーティション名を含まない一般的な命令よりも統計的に有意に優れている場合、データセット分割が汚染されたことを示す。
第2のアイデアは、GPT-4に基づく分類器がコンテキスト内学習を促進させ、複数のインスタンスが汚染された場合にデータセットが汚染されたことを示す。
提案手法は,人間エキスパートによる手作業による評価と対比して,列車や試験・評価の分割を含む7つのデータセットでllmが汚染されているかどうかを92%から100%の精度で検出できる。
さらに, GPT-4はAG News, WNLI, XSumデータセットで汚染されていることが示唆された。
関連論文リスト
- Can LLMs Separate Instructions From Data? And What Do We Even Mean By
That? [70.90792645587449]
命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用的なアプリケーションに数え切れないほど新しい可能性を秘めている。
LLMには、命令とデータの分離など、コンピュータ科学の他の領域で確立されている基本的な安全機能がない。
本稿では,命令データ分離の現象を定量化するための公式測度と,その経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Generalization or Memorization: Data Contamination and Trustworthy
Evaluation for Large Language Models [34.60647883219719]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Data Contamination Quiz: A Tool to Detect and Estimate Contamination in
Large Language Models [29.56037518816495]
大規模言語モデル(LLM)におけるデータ汚染を簡易かつ効果的に検出する手法を提案する。
データの汚染検出を複数項目の質問としてフレーム化し、各データセットインスタンスの3つの摂動バージョンを作成するクイズフォーマットを考案する。
生成された摂動バージョンは、元のインスタンスとともにDCQのオプションを形成し、提供された選択が正しくない可能性を調整した追加オプションを提供する。
論文 参考訳(メタデータ) (2023-11-10T18:48:58Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。