論文の概要: CAP: Data Contamination Detection via Consistency Amplification
- arxiv url: http://arxiv.org/abs/2410.15005v1
- Date: Sat, 19 Oct 2024 06:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:19:08.396438
- Title: CAP: Data Contamination Detection via Consistency Amplification
- Title(参考訳): CAP:一貫性増幅によるデータ汚染検出
- Authors: Yi Zhao, Jing Li, Linyi Yang,
- Abstract要約: 大規模言語モデル(LLM)は広く使われているが、データの汚染に関する懸念は信頼性に疑問を呈している。
本稿では,データセットの漏洩量を測定するためのPCR(Performance Consistency Ratio)を導入した新しいフレームワークである Consistency Amplification-based Data Contamination Detection (CAP)を提案する。
CAPは様々なベンチマークに適用でき、ホワイトボックスモデルとブラックボックスモデルの両方で動作する。
- 参考スコア(独自算出の注目度): 20.135264289668463
- License:
- Abstract: Large language models (LLMs) are widely used, but concerns about data contamination challenge the reliability of LLM evaluations. Existing contamination detection methods are often task-specific or require extra prerequisites, limiting practicality. We propose a novel framework, Consistency Amplification-based Data Contamination Detection (CAP), which introduces the Performance Consistency Ratio (PCR) to measure dataset leakage by leveraging LM consistency. To the best of our knowledge, this is the first method to explicitly differentiate between fine-tuning and contamination, which is crucial for detecting contamination in domain-specific models. Additionally, CAP is applicable to various benchmarks and works for both white-box and black-box models. We validate CAP's effectiveness through experiments on seven LLMs and four domain-specific benchmarks. Our findings also show that composite benchmarks from various dataset sources are particularly prone to unintentional contamination. Codes will be publicly available soon.
- Abstract(参考訳): 大規模言語モデル(LLM)は広く用いられているが、データ汚染に関する懸念はLLM評価の信頼性に挑戦する。
既存の汚染検出方法は、しばしばタスク特化または追加の前提条件を必要とし、実用性を制限する。
本稿では, LM の整合性を利用してデータセットの漏洩を測定するために, PCR (Performance Consistency Ratio) を導入した新しいフレームワークである Consistency Amplification-based Data Contamination Detection (CAP) を提案する。
我々の知る限りでは、これはドメイン固有モデルの汚染を検出するために不可欠である微調整と汚染を明確に区別する最初の方法である。
加えて、CAPは様々なベンチマークに適用でき、ホワイトボックスモデルとブラックボックスモデルの両方で動作する。
CAPの有効性は、7つのLLMと4つのドメイン固有ベンチマークの実験を通して検証する。
また, 各種データセットからの総合的なベンチマークは, 特に意図しない汚染の傾向が示唆された。
コードも近く公開される予定だ。
関連論文リスト
- Evaluation data contamination in LLMs: how do we measure it and (when) does it matter? [10.691754344782387]
どのサンプルを汚染されるべきか、それがベンチマークスコアに与える影響を正確に定義することは困難である。
本稿では,ConTAMと呼ばれる新しい分析手法を提案する。
汚染は最近のLCMリリースで報告されたよりもはるかに大きな効果を示し、異なるスケールで異なるモデルに利益をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-11-06T13:54:08Z) - Towards Data Contamination Detection for Modern Large Language Models: Limitations, Inconsistencies, and Oracle Challenges [3.0455427910850785]
我々は,8つの挑戦的データセットにまたがる4つの最先端LCMを用いた5つの汚染検出手法を評価する。
解析の結果,現在の手法は仮定や応用に非自明な制約があることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-16T02:04:33Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文 参考訳(メタデータ) (2024-06-26T13:12:40Z) - Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。
本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T04:17:03Z) - Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。
評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文 参考訳(メタデータ) (2024-02-24T23:54:41Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。