論文の概要: Investigating Data Contamination for Pre-training Language Models
- arxiv url: http://arxiv.org/abs/2401.06059v1
- Date: Thu, 11 Jan 2024 17:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 13:31:48.963718
- Title: Investigating Data Contamination for Pre-training Language Models
- Title(参考訳): 事前学習言語モデルのためのデータ汚染の調査
- Authors: Minhao Jiang, Ken Ziyu Liu, Ming Zhong, Rylan Schaeffer, Siru Ouyang,
Jiawei Han, Sanmi Koyejo
- Abstract要約: 我々は,一連のGPT-2モデルを事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。
評価データから,テキスト汚染 (テキスト, 評価サンプルの入力テキスト) と接地トラス汚染 (テキスト, 入力に要求されるプロンプトと所望の出力) の両方の効果を強調した。
- 参考スコア(独自算出の注目度): 46.335755305642564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models pre-trained on web-scale corpora demonstrate impressive
capabilities on diverse downstream tasks. However, there is increasing concern
whether such capabilities might arise from evaluation datasets being included
in the pre-training corpus -- a phenomenon known as \textit{data contamination}
-- in a manner that artificially increases performance. There has been little
understanding of how this potential contamination might influence LMs'
performance on downstream tasks. In this paper, we explore the impact of data
contamination at the pre-training stage by pre-training a series of GPT-2
models \textit{from scratch}. We highlight the effect of both text
contamination (\textit{i.e.}\ input text of the evaluation samples) and
ground-truth contamination (\textit{i.e.}\ the prompts asked on the input and
the desired outputs) from evaluation data. We also investigate the effects of
repeating contamination for various downstream tasks. Additionally, we examine
the prevailing n-gram-based definitions of contamination within current LLM
reports, pinpointing their limitations and inadequacy. Our findings offer new
insights into data contamination's effects on language model capabilities and
underscore the need for independent, comprehensive contamination assessments in
LLM studies.
- Abstract(参考訳): webスケールコーパスで事前トレーニングされた言語モデルは、さまざまな下流タスクで印象的な能力を示している。
しかし、事前学習されたコーパスに含まれている評価データセット -- \textit{data contamination} と呼ばれる現象 -- が、人工的にパフォーマンスを向上させる方法で、そのような能力が生ずるのではないかという懸念が高まっている。
この汚染が下流タスクにおけるLMの性能に与える影響についてはほとんど理解されていない。
本稿では,一連の GPT-2 モデル textit{from scratch} を事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。
評価データから,テキスト汚染(評価サンプルの入力テキスト)と地中汚染(入力に対して要求されたプロンプトと所望の出力)の両方の効果を強調する。
また,様々な下流課題に対する繰り返し汚染の影響についても検討した。
さらに,現状のllm報告におけるn-gramに基づく汚染の定義について検討し,その限界と不備を指摘する。
本研究は, 言語モデル能力に対するデータ汚染の影響に関する新たな知見を提供し, LLM研究における独立した包括的汚染評価の必要性を浮き彫りにした。
関連論文リスト
- Generalization or Memorization: Data Contamination and Trustworthy
Evaluation for Large Language Models [34.60647883219719]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large
Language Models [55.8717261687206]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination
for each Benchmark [19.875954121100005]
我々は、注釈付きベンチマークを用いた自然言語処理(NLP)タスクの古典的評価が問題となっていると論じる。
最悪のデータ汚染は、Large Language Model(LLM)がベンチマークのテスト分割に基づいてトレーニングされ、同じベンチマークで評価された時に発生する。
このポジションペーパーは、異なるレベルのデータ汚染を定義し、コミュニティの努力を主張する。
論文 参考訳(メタデータ) (2023-10-27T09:48:29Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - VDC: Versatile Data Cleanser for Detecting Dirty Samples via
Visual-Linguistic Inconsistency [50.129230147605185]
現実の世界では、データセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている。
既存の検出器は、他のドメインの汚れたサンプルを扱う場合、しばしば一般化が弱くなるような、有毒なサンプルやノイズのあるラベルを検出することのみに焦点を当てている。
マルチモーダル大規模言語モデル(MLLM)の超越した機能を利用した多目的データクリーニング(VDC)を提案する。
論文 参考訳(メタデータ) (2023-09-28T07:37:18Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Self-Supervised Learning for Data Scarcity in a Fatigue Damage
Prognostic Problem [0.0]
自己監督学習(Self-Supervised Learning)は、教師なし学習アプローチのサブカテゴリである。
本稿では,未ラベルセンサデータを用いた自己学習型DLモデルの有効性について検討する。
その結果, 自己教師付き事前学習モデルでは, 下流RUL予測タスクにおいて, 非事前学習モデルよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-20T06:45:32Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - Data Contamination: From Memorization to Exploitation [5.997909991352044]
下流タスクにおいて、モデルがどのように汚染されたデータを悪用しているかは明らかではない。
我々は、ウィキペディアの共同コーパスでBERTモデルを事前訓練し、下流データセットをラベル付けし、関連するタスクでそれらを微調整する。
2つのモデルと3つのダウンストリームタスクによる実験では、いくつかのケースでは悪用が存在するが、他のケースでは、汚染されたデータを記憶しているが、悪用しない。
論文 参考訳(メタデータ) (2022-03-15T20:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。