論文の概要: Evading Data Contamination Detection for Language Models is (too) Easy
- arxiv url: http://arxiv.org/abs/2402.02823v1
- Date: Mon, 5 Feb 2024 09:10:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:09:28.245547
- Title: Evading Data Contamination Detection for Language Models is (too) Easy
- Title(参考訳): 言語モデルに対するデータ汚染検出の実施は(あまりにも)容易である
- Authors: Jasper Dekoninck, Mark Niklas M\"uller, Maximilian Baader, Marc
Fischer, Martin Vechev
- Abstract要約: 大規模な言語モデルは、必然的に公開ベンチマークによる汚染につながる可能性がある。
本稿では,モデルプロバイダと汚染検出手法の両方の分類を提案する。
これは、私たちがEALで活用している既存のメソッドの脆弱性を明らかにします。
- 参考スコア(独自算出の注目度): 9.024665800235855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are widespread, with their performance on benchmarks
frequently guiding user preferences for one model over another. However, the
vast amount of data these models are trained on can inadvertently lead to
contamination with public benchmarks, thus compromising performance
measurements. While recently developed contamination detection methods try to
address this issue, they overlook the possibility of deliberate contamination
by malicious model providers aiming to evade detection. We argue that this
setting is of crucial importance as it casts doubt on the reliability of public
benchmarks. To more rigorously study this issue, we propose a categorization of
both model providers and contamination detection methods. This reveals
vulnerabilities in existing methods that we exploit with EAL, a simple yet
effective contamination technique that significantly inflates benchmark
performance while completely evading current detection methods.
- Abstract(参考訳): 大規模な言語モデルは広く普及しており、ベンチマークのパフォーマンスは、あるモデルに対して別のモデルよりもユーザの好みを導くことが多い。
しかしながら、これらのモデルでトレーニングされる膨大なデータが、不注意に公開ベンチマークの汚染につながり、パフォーマンス測定を損なう可能性がある。
近年, 汚染検出手法が開発されているが, 検出を回避しようとする悪意のあるモデル提供者による意図的な汚染の可能性を見落としている。
この設定は、公開ベンチマークの信頼性に疑念を抱くため、非常に重要であると我々は主張する。
この問題をより厳密に研究するために,モデルプロバイダと汚染検出方法の両方の分類を提案する。
これは、現在の検出方法を完全に回避しながらベンチマーク性能を大幅に膨らませる、単純で効果的な汚染技術であるealで活用している既存の方法の脆弱性を明らかにします。
関連論文リスト
- Condition Monitoring with Incomplete Data: An Integrated Variational Autoencoder and Distance Metric Framework [2.7898966850590625]
本稿では,未確認データに対する故障検出と条件モニタリングのための新しい手法を提案する。
我々は変分オートエンコーダを用いて、以前に見られた新しい未知条件の確率分布をキャプチャする。
故障は、健康指標のしきい値を確立することで検出され、そのモデルが重大で見えない断層を高い精度で識別することができる。
論文 参考訳(メタデータ) (2024-04-08T22:20:23Z) - Scalable Ensemble-based Detection Method against Adversarial Attacks for
speaker verification [73.30974350776636]
本稿では,一貫した枠組みにおける主流浄化手法を包括的に比較する。
本稿では, 検出のための高度浄化モジュールを組み込んだ, 簡単に追従できるアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T03:04:05Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Estimating Contamination via Perplexity: Quantifying Memorisation in
Language Model Evaluation [2.4173424114751114]
本稿では,全トレーニングセットにアクセスせずに汚染を定量化する新しい手法を提案する。
我々の分析は、一般的な読み理解、要約ベンチマークにおいて、最近の基礎モデルの顕著な記憶の証拠を提供する一方で、複数の選択が汚染されていないように見える。
論文 参考訳(メタデータ) (2023-09-19T15:02:58Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。
望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。
本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文 参考訳(メタデータ) (2022-12-21T02:28:07Z) - Improving the Adversarial Robustness of NLP Models by Information
Bottleneck [112.44039792098579]
非破壊機能は敵によって容易に操作でき、NLPモデルを騙すことができる。
本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。
情報ボトルネックに基づく手法を用いてトレーニングしたモデルでは,ロバストな精度で大幅な改善が達成できることを示す。
論文 参考訳(メタデータ) (2022-06-11T12:12:20Z) - Adversarial robustness for latent models: Revisiting the robust-standard
accuracies tradeoff [12.386462516398472]
標準的なテストの精度を落とすために、しばしば逆行訓練が観察される。
本稿では、このトレードオフは、データが低次元構造を楽しむ場合に緩和されると論じる。
周囲次元に対する多様体次元が減少するにつれて、標準精度とロバスト精度の両方に関してほぼ最適に近いモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-10-22T17:58:27Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。