論文の概要: Data Contamination: From Memorization to Exploitation
- arxiv url: http://arxiv.org/abs/2203.08242v1
- Date: Tue, 15 Mar 2022 20:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 13:45:58.696396
- Title: Data Contamination: From Memorization to Exploitation
- Title(参考訳): データ汚染:記憶から搾取まで
- Authors: Inbal Magar and Roy Schwartz
- Abstract要約: 下流タスクにおいて、モデルがどのように汚染されたデータを悪用しているかは明らかではない。
我々は、ウィキペディアの共同コーパスでBERTモデルを事前訓練し、下流データセットをラベル付けし、関連するタスクでそれらを微調整する。
2つのモデルと3つのダウンストリームタスクによる実験では、いくつかのケースでは悪用が存在するが、他のケースでは、汚染されたデータを記憶しているが、悪用しない。
- 参考スコア(独自算出の注目度): 5.997909991352044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models are typically trained on massive web-based
datasets, which are often "contaminated" with downstream test sets. It is not
clear to what extent models exploit the contaminated data for downstream tasks.
We present a principled method to study this question. We pretrain BERT models
on joint corpora of Wikipedia and labeled downstream datasets, and fine-tune
them on the relevant task. Comparing performance between samples seen and
unseen during pretraining enables us to define and quantify levels of
memorization and exploitation. Experiments with two models and three downstream
tasks show that exploitation exists in some cases, but in others the models
memorize the contaminated data, but do not exploit it. We show that these two
measures are affected by different factors such as the number of duplications
of the contaminated data and the model size. Our results highlight the
importance of analyzing massive web-scale datasets to verify that progress in
NLP is obtained by better language understanding and not better data
exploitation.
- Abstract(参考訳): 事前訓練された言語モデルは、通常、大量のWebベースのデータセットでトレーニングされる。
モデルが下流タスクで汚染されたデータをどの程度活用しているかは明らかではない。
この問題を研究するための原則的な方法を提案する。
wikipediaとラベル付きダウンストリームデータセットの共同コーパスでbertモデルを事前トレーニングし、関連するタスクでそれらを微調整します。
事前学習中に見られたサンプルと見えないサンプルのパフォーマンスを比較することで、記憶と搾取のレベルを定義し、定量化することができる。
2つのモデルと3つの下流タスクによる実験では、エクスプロイションが存在することが示されているが、他のモデルでは汚染されたデータを記憶するが、それを悪用しないものもある。
これら2つの尺度は, 汚染データの重複数やモデルサイズなど, 異なる要因によって影響を受けることを示す。
以上の結果から,大規模webスケールデータセットの解析の重要性を強調する。nlpの進歩は,言語理解が向上し,データエクスプロイトが向上しないことを示す。
関連論文リスト
- Measuring and Improving Attentiveness to Partial Inputs with
Counterfactuals [95.5442607785241]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。
このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。
GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文 参考訳(メタデータ) (2023-10-16T17:51:29Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data
Injection and Model Querying [12.272239607545089]
局所分布シフト合成(textscLDSS)は,分類モデルの訓練に使用される漏洩データを検出する新しい手法である。
textscLDSSは、Naive Bayes、Decision Tree、Random Forestといった様々な分類モデルと互換性がある。
5つの実世界のデータセットにまたがる7種類の分類モデルについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Self-omics: A Self-supervised Learning Framework for Multi-omics Cancer
Data [4.843654097048771]
SSL(Self-Supervised Learning)メソッドは、通常はラベル付きデータを扱うために使用される。
我々は、SSLコンポーネントからなる新しい事前学習パラダイムを開発する。
本手法はTGAパン癌データセットの癌型分類における最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-03T11:20:12Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Annotating and Modeling Fine-grained Factuality in Summarization [36.88018450067003]
実際に使用する上での大きな障壁は、入力に忠実ではなく、事実的誤りを含む要約を出力する確率である。
要約の事実的誤りを識別するために,学習モデルのための合成データと人間ラベルデータの両方を探索する。
我々は,学習データ中の非実写トークンを識別することにより,より実写的なXSum要約モデルのトレーニングを可能にすることを示す。
論文 参考訳(メタデータ) (2021-04-09T11:20:44Z) - Data Impressions: Mining Deep Models to Extract Samples for Data-free
Applications [26.48630545028405]
データインプレッションはトレーニングデータのプロキシとして機能し、さまざまなタスクを実現するために使用することができる。
いくつかのコンピュータビジョンタスクにおけるデータインプレッションの適用性を示す。
論文 参考訳(メタデータ) (2021-01-15T11:37:29Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。