論文の概要: Evading Data Contamination Detection for Language Models is (too) Easy
- arxiv url: http://arxiv.org/abs/2402.02823v2
- Date: Mon, 12 Feb 2024 17:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:19:02.458862
- Title: Evading Data Contamination Detection for Language Models is (too) Easy
- Title(参考訳): 言語モデルに対するデータ汚染検出の実施は(あまりにも)容易である
- Authors: Jasper Dekoninck, Mark Niklas M\"uller, Maximilian Baader, Marc
Fischer, Martin Vechev
- Abstract要約: 大規模な言語モデルは、必然的に公開ベンチマークによる汚染につながる可能性がある。
本稿では,モデルプロバイダと汚染検出手法の両方の分類を提案する。
これは、私たちがEALで活用している既存のメソッドの脆弱性を明らかにします。
- 参考スコア(独自算出の注目度): 9.024665800235855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are widespread, with their performance on benchmarks
frequently guiding user preferences for one model over another. However, the
vast amount of data these models are trained on can inadvertently lead to
contamination with public benchmarks, thus compromising performance
measurements. While recently developed contamination detection methods try to
address this issue, they overlook the possibility of deliberate contamination
by malicious model providers aiming to evade detection. We argue that this
setting is of crucial importance as it casts doubt on the reliability of public
benchmarks. To more rigorously study this issue, we propose a categorization of
both model providers and contamination detection methods. This reveals
vulnerabilities in existing methods that we exploit with EAL, a simple yet
effective contamination technique that significantly inflates benchmark
performance while completely evading current detection methods.
- Abstract(参考訳): 大規模な言語モデルは広く普及しており、ベンチマークのパフォーマンスは、あるモデルに対して別のモデルよりもユーザの好みを導くことが多い。
しかしながら、これらのモデルでトレーニングされる膨大なデータが、不注意に公開ベンチマークの汚染につながり、パフォーマンス測定を損なう可能性がある。
近年, 汚染検出手法が開発されているが, 検出を回避しようとする悪意のあるモデル提供者による意図的な汚染の可能性を見落としている。
この設定は、公開ベンチマークの信頼性に疑念を抱くため、非常に重要であると我々は主張する。
この問題をより厳密に研究するために,モデルプロバイダと汚染検出方法の両方の分類を提案する。
これは、現在の検出方法を完全に回避しながらベンチマーク性能を大幅に膨らませる、単純で効果的な汚染技術であるealで活用している既存の方法の脆弱性を明らかにします。
関連論文リスト
- Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Adversarially Robust Industrial Anomaly Detection Through Diffusion Model [23.97654469255749]
そこで本研究では, 拡散モデルを用いて, 逆解析器と逆解析器の両方を動作させることができる, 簡易かつ効果的な逆解析手法である textitAdvRAD を提案する。
提案手法は,産業用異常検出ベンチマークデータセットの最先端手法と同等に強い異常検出性能を維持しつつ,優れた(認証された)対向性を示す。
論文 参考訳(メタデータ) (2024-08-09T03:25:19Z) - PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文 参考訳(メタデータ) (2024-06-26T13:12:40Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - ConStat: Performance-Based Contamination Detection in Large Language Models [7.305342793164905]
コンスタット(ConStat)は、参照モデルの集合に対する一次ベンチマークと参照ベンチマークのパフォーマンスを比較することで、汚染を確実に検出し、定量化する統計手法である。
多様なモデルアーキテクチャ,ベンチマーク,汚染シナリオの広範な評価において,ConStatの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-25T15:36:37Z) - Scalable Ensemble-based Detection Method against Adversarial Attacks for
speaker verification [73.30974350776636]
本稿では,一貫した枠組みにおける主流浄化手法を包括的に比較する。
本稿では, 検出のための高度浄化モジュールを組み込んだ, 簡単に追従できるアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T03:04:05Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Estimating Contamination via Perplexity: Quantifying Memorisation in
Language Model Evaluation [2.4173424114751114]
本稿では,全トレーニングセットにアクセスせずに汚染を定量化する新しい手法を提案する。
我々の分析は、一般的な読み理解、要約ベンチマークにおいて、最近の基礎モデルの顕著な記憶の証拠を提供する一方で、複数の選択が汚染されていないように見える。
論文 参考訳(メタデータ) (2023-09-19T15:02:58Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Improving the Adversarial Robustness of NLP Models by Information
Bottleneck [112.44039792098579]
非破壊機能は敵によって容易に操作でき、NLPモデルを騙すことができる。
本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。
情報ボトルネックに基づく手法を用いてトレーニングしたモデルでは,ロバストな精度で大幅な改善が達成できることを示す。
論文 参考訳(メタデータ) (2022-06-11T12:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。