Fugu-MT 論文翻訳(概要): Evading Data Contamination Detection for Language Models is (too) Easy

論文の概要: Evading Data Contamination Detection for Language Models is (too) Easy

arxiv url: http://arxiv.org/abs/2402.02823v1
Date: Mon, 5 Feb 2024 09:10:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 17:09:28.245547
Title: Evading Data Contamination Detection for Language Models is (too) Easy
Title（参考訳）: 言語モデルに対するデータ汚染検出の実施は(あまりにも)容易である
Authors: Jasper Dekoninck, Mark Niklas M\"uller, Maximilian Baader, Marc Fischer, Martin Vechev
Abstract要約: 大規模な言語モデルは、必然的に公開ベンチマークによる汚染につながる可能性がある。本稿では,モデルプロバイダと汚染検出手法の両方の分類を提案する。これは、私たちがEALで活用している既存のメソッドの脆弱性を明らかにします。
参考スコア（独自算出の注目度）: 9.024665800235855
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are widespread, with their performance on benchmarks frequently guiding user preferences for one model over another. However, the vast amount of data these models are trained on can inadvertently lead to contamination with public benchmarks, thus compromising performance measurements. While recently developed contamination detection methods try to address this issue, they overlook the possibility of deliberate contamination by malicious model providers aiming to evade detection. We argue that this setting is of crucial importance as it casts doubt on the reliability of public benchmarks. To more rigorously study this issue, we propose a categorization of both model providers and contamination detection methods. This reveals vulnerabilities in existing methods that we exploit with EAL, a simple yet effective contamination technique that significantly inflates benchmark performance while completely evading current detection methods.
Abstract（参考訳）: 大規模な言語モデルは広く普及しており、ベンチマークのパフォーマンスは、あるモデルに対して別のモデルよりもユーザの好みを導くことが多い。しかしながら、これらのモデルでトレーニングされる膨大なデータが、不注意に公開ベンチマークの汚染につながり、パフォーマンス測定を損なう可能性がある。近年, 汚染検出手法が開発されているが, 検出を回避しようとする悪意のあるモデル提供者による意図的な汚染の可能性を見落としている。この設定は、公開ベンチマークの信頼性に疑念を抱くため、非常に重要であると我々は主張する。この問題をより厳密に研究するために,モデルプロバイダと汚染検出方法の両方の分類を提案する。これは、現在の検出方法を完全に回避しながらベンチマーク性能を大幅に膨らませる、単純で効果的な汚染技術であるealで活用している既存の方法の脆弱性を明らかにします。

関連論文リスト

Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。 MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文参考訳（メタデータ） (2026-02-08T16:06:12Z)
When Benchmarks Leak: Inference-Time Decontamination for LLMs [4.071875179293035]
DeconIEPは入力埋め込み空間に小さな有界摂動を適用することにより、評価中に完全に動作する。入力埋め込み空間に小さな有界摂動を適用することで、評価中に完全に動作する除染フレームワークであるDeconIEPを提案する。
論文参考訳（メタデータ） (2026-01-27T08:19:40Z)
Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。既存の検出手法が不整合性を示すか,不整合性を示すかを示す。マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文参考訳（メタデータ） (2025-11-05T18:59:52Z)
A Survey on Data Contamination for Large Language Models [12.431575579432458]
大規模言語モデル(LLM)は、テキスト生成やコード合成など、様々な分野で大きな進歩を見せている。データ汚染による性能評価の信頼性は精査されている。
論文参考訳（メタデータ） (2025-02-20T10:23:27Z)
Adversarial Purification by Consistency-aware Latent Space Optimization on Data Manifolds [48.37843602248313]
ディープニューラルネットワーク(DNN)は、クリーンデータに知覚不能な摂動を加えることで作られた敵のサンプルに対して脆弱であり、誤った危険な予測につながる可能性がある。本稿では、事前学習された一貫性モデルの潜在空間内のベクトルを最適化し、クリーンなデータを復元するためのサンプルを生成する、一貫性モデルに基づく適応的パーフィケーション(CMAP)を提案する。 CMAPは、高い自然な精度を維持しながら、強力な敵攻撃に対する堅牢性を著しく向上させる。
論文参考訳（メタデータ） (2024-12-11T14:14:02Z)
Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。 UE識別のための反復フィルタリング手法を提案する。
論文参考訳（メタデータ） (2024-08-15T13:26:13Z)
Adversarially Robust Industrial Anomaly Detection Through Diffusion Model [23.97654469255749]
そこで本研究では, 拡散モデルを用いて, 逆解析器と逆解析器の両方を動作させることができる, 簡易かつ効果的な逆解析手法である textitAdvRAD を提案する。提案手法は,産業用異常検出ベンチマークデータセットの最先端手法と同等に強い異常検出性能を維持しつつ,優れた(認証された)対向性を示す。
論文参考訳（メタデータ） (2024-08-09T03:25:19Z)
PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。 LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文参考訳（メタデータ） (2024-06-26T13:12:40Z)
Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文参考訳（メタデータ） (2024-06-14T02:39:43Z)
ConStat: Performance-Based Contamination Detection in Large Language Models [7.305342793164905]
コンスタット(ConStat)は、参照モデルの集合に対する一次ベンチマークと参照ベンチマークのパフォーマンスを比較することで、汚染を確実に検出し、定量化する統計手法である。多様なモデルアーキテクチャ,ベンチマーク,汚染シナリオの広範な評価において,ConStatの有効性を実証する。
論文参考訳（メタデータ） (2024-05-25T15:36:37Z)
A Comprehensive Survey of Contamination Detection Methods in Large Language Models [68.10605098856087]
近年のLarge Language Models(LLM)の台頭に伴い、多くの新しい機会が生まれつつありますが、新たな課題もあります。 LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。この制限は、NLPの分野での実際の能力向上を阻害するが、汚染を効率的に検出する方法が不足している。
論文参考訳（メタデータ） (2024-03-31T14:32:02Z)
Scalable Ensemble-based Detection Method against Adversarial Attacks for speaker verification [73.30974350776636]
本稿では,一貫した枠組みにおける主流浄化手法を包括的に比較する。本稿では, 検出のための高度浄化モジュールを組み込んだ, 簡単に追従できるアンサンブル手法を提案する。
論文参考訳（メタデータ） (2023-12-14T03:04:05Z)
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文参考訳（メタデータ） (2023-11-08T17:35:20Z)
Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation [2.4173424114751114]
本稿では,全トレーニングセットにアクセスせずに汚染を定量化する新しい手法を提案する。我々の分析は、一般的な読み理解、要約ベンチマークにおいて、最近の基礎モデルの顕著な記憶の証拠を提供する一方で、複数の選択が汚染されていないように見える。
論文参考訳（メタデータ） (2023-09-19T15:02:58Z)
On the Universal Adversarial Perturbations for Efficient Data-free Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文参考訳（メタデータ） (2023-06-27T02:54:07Z)
Improving the Adversarial Robustness of NLP Models by Information Bottleneck [112.44039792098579]
非破壊機能は敵によって容易に操作でき、NLPモデルを騙すことができる。本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。情報ボトルネックに基づく手法を用いてトレーニングしたモデルでは,ロバストな精度で大幅な改善が達成できることを示す。
論文参考訳（メタデータ） (2022-06-11T12:12:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。