論文の概要: A Taxonomy for Data Contamination in Large Language Models
- arxiv url: http://arxiv.org/abs/2407.08716v1
- Date: Thu, 11 Jul 2024 17:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:09:12.625341
- Title: A Taxonomy for Data Contamination in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるデータ汚染の分類
- Authors: Medha Palavalli, Amanda Bertsch, Matthew R. Gormley,
- Abstract要約: 増大する懸念は、事前学習コーパスに評価データセットを含めることができるデータ汚染である。
このようなデータを検知し、除去するプロセスである汚染除去は、潜在的な解決策である。
下流タスクにおける言語モデルの性能に異なる種類の汚染がどのような影響を及ぼすかは、完全には理解されていない。
- 参考スコア(独自算出の注目度): 12.643103231497813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models pretrained on extensive web corpora demonstrate remarkable performance across a wide range of downstream tasks. However, a growing concern is data contamination, where evaluation datasets may be contained in the pretraining corpus, inflating model performance. Decontamination, the process of detecting and removing such data, is a potential solution; yet these contaminants may originate from altered versions of the test set, evading detection during decontamination. How different types of contamination impact the performance of language models on downstream tasks is not fully understood. We present a taxonomy that categorizes the various types of contamination encountered by LLMs during the pretraining phase and identify which types pose the highest risk. We analyze the impact of contamination on two key NLP tasks -- summarization and question answering -- revealing how different types of contamination influence task performance during evaluation.
- Abstract(参考訳): 広範囲なWebコーパスで事前訓練された大規模な言語モデルは、幅広い下流タスクで顕著なパフォーマンスを示している。
しかし、データ汚染が懸念され、事前学習コーパスに評価データセットが組み込まれ、モデル性能が膨らむ。
このようなデータを検出・除去するプロセスである除染は潜在的な解決策であるが、これらの汚染物質はテストセットの変更バージョンから派生し、除染中の検出を避けることができる。
下流タスクにおける言語モデルの性能に異なる種類の汚染がどのような影響を及ぼすかは、完全には理解されていない。
プレトレーニング期間中のLSMによる各種汚染を分類し,最もリスクの高いタイプを同定する分類法を提案する。
我々は,汚染が2つの重要なNLPタスク(要約と質問応答)に与える影響を分析する。
関連論文リスト
- Evaluation data contamination in LLMs: how do we measure it and (when) does it matter? [10.691754344782387]
どのサンプルを汚染されるべきか、それがベンチマークスコアに与える影響を正確に定義することは困難である。
本稿では,ConTAMと呼ばれる新しい分析手法を提案する。
汚染は最近のLCMリリースで報告されたよりもはるかに大きな効果を示し、異なるスケールで異なるモデルに利益をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-11-06T13:54:08Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - ConStat: Performance-Based Contamination Detection in Large Language Models [7.305342793164905]
コンスタット(ConStat)は、参照モデルの集合に対する一次ベンチマークと参照ベンチマークのパフォーマンスを比較することで、汚染を確実に検出し、定量化する統計手法である。
多様なモデルアーキテクチャ,ベンチマーク,汚染シナリオの広範な評価において,ConStatの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-25T15:36:37Z) - Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Investigating Data Contamination for Pre-training Language Models [46.335755305642564]
我々は,一連のGPT-2モデルを事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。
評価データから,テキスト汚染 (テキスト, 評価サンプルの入力テキスト) と接地トラス汚染 (テキスト, 入力に要求されるプロンプトと所望の出力) の両方の効果を強調した。
論文 参考訳(メタデータ) (2024-01-11T17:24:49Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models [46.72546879204724]
現実の世界では、データセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている。
既存の検出器は、他のドメインの汚れたサンプルを扱う場合、しばしば一般化が弱くなるような、有毒なサンプルやノイズのあるラベルを検出することのみに焦点を当てている。
マルチモーダル大規模言語モデル(MLLM)の超越した機能を利用した多目的データクリーニング(VDC)を提案する。
論文 参考訳(メタデータ) (2023-09-28T07:37:18Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Data Contamination: From Memorization to Exploitation [5.997909991352044]
下流タスクにおいて、モデルがどのように汚染されたデータを悪用しているかは明らかではない。
我々は、ウィキペディアの共同コーパスでBERTモデルを事前訓練し、下流データセットをラベル付けし、関連するタスクでそれらを微調整する。
2つのモデルと3つのダウンストリームタスクによる実験では、いくつかのケースでは悪用が存在するが、他のケースでは、汚染されたデータを記憶しているが、悪用しない。
論文 参考訳(メタデータ) (2022-03-15T20:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。