Fugu-MT 論文翻訳(概要): Investigating Data Contamination for Pre-training Language Models

論文の概要: Investigating Data Contamination for Pre-training Language Models

arxiv url: http://arxiv.org/abs/2401.06059v1
Date: Thu, 11 Jan 2024 17:24:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-12 13:31:48.963718
Title: Investigating Data Contamination for Pre-training Language Models
Title（参考訳）: 事前学習言語モデルのためのデータ汚染の調査
Authors: Minhao Jiang, Ken Ziyu Liu, Ming Zhong, Rylan Schaeffer, Siru Ouyang, Jiawei Han, Sanmi Koyejo
Abstract要約: 我々は,一連のGPT-2モデルを事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。評価データから,テキスト汚染 (テキスト, 評価サンプルの入力テキスト) と接地トラス汚染 (テキスト, 入力に要求されるプロンプトと所望の出力) の両方の効果を強調した。
参考スコア（独自算出の注目度）: 46.335755305642564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models pre-trained on web-scale corpora demonstrate impressive capabilities on diverse downstream tasks. However, there is increasing concern whether such capabilities might arise from evaluation datasets being included in the pre-training corpus -- a phenomenon known as \textit{data contamination} -- in a manner that artificially increases performance. There has been little understanding of how this potential contamination might influence LMs' performance on downstream tasks. In this paper, we explore the impact of data contamination at the pre-training stage by pre-training a series of GPT-2 models \textit{from scratch}. We highlight the effect of both text contamination (\textit{i.e.}\ input text of the evaluation samples) and ground-truth contamination (\textit{i.e.}\ the prompts asked on the input and the desired outputs) from evaluation data. We also investigate the effects of repeating contamination for various downstream tasks. Additionally, we examine the prevailing n-gram-based definitions of contamination within current LLM reports, pinpointing their limitations and inadequacy. Our findings offer new insights into data contamination's effects on language model capabilities and underscore the need for independent, comprehensive contamination assessments in LLM studies.
Abstract（参考訳）: webスケールコーパスで事前トレーニングされた言語モデルは、さまざまな下流タスクで印象的な能力を示している。しかし、事前学習されたコーパスに含まれている評価データセット -- \textit{data contamination} と呼ばれる現象 -- が、人工的にパフォーマンスを向上させる方法で、そのような能力が生ずるのではないかという懸念が高まっている。この汚染が下流タスクにおけるLMの性能に与える影響についてはほとんど理解されていない。本稿では,一連の GPT-2 モデル textit{from scratch} を事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。評価データから,テキスト汚染(評価サンプルの入力テキスト)と地中汚染(入力に対して要求されたプロンプトと所望の出力)の両方の効果を強調する。また,様々な下流課題に対する繰り返し汚染の影響についても検討した。さらに,現状のllm報告におけるn-gramに基づく汚染の定義について検討し,その限界と不備を指摘する。本研究は, 言語モデル能力に対するデータ汚染の影響に関する新たな知見を提供し, LLM研究における独立した包括的汚染評価の必要性を浮き彫りにした。

関連論文リスト

Overestimation in LLM Evaluation: A Controlled Large-Scale Study on Data Contamination's Impact on Machine Translation [46.148465860465095]
機械翻訳作業における1Bと8Bの言語モデルに対する汚染の影響について検討した。実験の結果,ソースとターゲットの汚染がBLEUスコアを大幅に膨らませていることが判明した。対照的に、ソースのみの汚染とターゲットのみの汚染は、概して小さく、一貫性の低い過剰推定を生み出す。
論文参考訳（メタデータ） (2025-01-30T21:51:18Z)
Evaluation data contamination in LLMs: how do we measure it and (when) does it matter? [10.691754344782387]
どのサンプルを汚染されるべきか、それがベンチマークスコアに与える影響を正確に定義することは困難である。本稿では,ConTAMと呼ばれる新しい分析手法を提案する。汚染は最近のLCMリリースで報告されたよりもはるかに大きな効果を示し、異なるスケールで異なるモデルに利益をもたらす可能性がある。
論文参考訳（メタデータ） (2024-11-06T13:54:08Z)
Assessing Contamination in Large Language Models: Introducing the LogProber method [17.91379291654773]
機械学習において、汚染とは、データテストがトレーニングセットにリークする状況を指す。本稿では,与えられた文中のトークン確率を用いて汚染を検出するアルゴリズムであるLogProberを紹介する。
論文参考訳（メタデータ） (2024-08-26T15:29:34Z)
A Taxonomy for Data Contamination in Large Language Models [12.643103231497813]
増大する懸念は、事前学習コーパスに評価データセットを含めることができるデータ汚染である。このようなデータを検知し、除去するプロセスである汚染除去は、潜在的な解決策である。下流タスクにおける言語モデルの性能に異なる種類の汚染がどのような影響を及ぼすかは、完全には理解されていない。
論文参考訳（メタデータ） (2024-07-11T17:50:34Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
A Comprehensive Survey of Contamination Detection Methods in Large Language Models [68.10605098856087]
近年のLarge Language Models(LLM)の台頭に伴い、多くの新しい機会が生まれつつありますが、新たな課題もあります。 LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。この制限は、NLPの分野での実際の能力向上を阻害するが、汚染を効率的に検出する方法が不足している。
論文参考訳（メタデータ） (2024-03-31T14:32:02Z)
Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文参考訳（メタデータ） (2024-02-24T23:54:41Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2023-09-29T06:18:15Z)
A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文参考訳（メタデータ） (2023-05-22T15:57:53Z)
Data Contamination: From Memorization to Exploitation [5.997909991352044]
下流タスクにおいて、モデルがどのように汚染されたデータを悪用しているかは明らかではない。我々は、ウィキペディアの共同コーパスでBERTモデルを事前訓練し、下流データセットをラベル付けし、関連するタスクでそれらを微調整する。 2つのモデルと3つのダウンストリームタスクによる実験では、いくつかのケースでは悪用が存在するが、他のケースでは、汚染されたデータを記憶しているが、悪用しない。
論文参考訳（メタデータ） (2022-03-15T20:37:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。