論文の概要: Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks
- arxiv url: http://arxiv.org/abs/2305.10160v2
- Date: Wed, 18 Oct 2023 13:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:32:38.108145
- Title: Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks
- Title(参考訳): テストデータを平文にアップロードするのをやめよう:評価ベンチマークによるデータ汚染の軽減のための実践的戦略
- Authors: Alon Jacovi, Avi Caciularu, Omer Goldman, Yoav Goldberg
- Abstract要約: データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
- 参考スコア(独自算出の注目度): 70.39633252935445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data contamination has become prevalent and challenging with the rise of
models pretrained on large automatically-crawled corpora. For closed models,
the training data becomes a trade secret, and even for open models, it is not
trivial to detect contamination. Strategies such as leaderboards with hidden
answers, or using test data which is guaranteed to be unseen, are expensive and
become fragile with time. Assuming that all relevant actors value clean test
data and will cooperate to mitigate data contamination, what can be done? We
propose three strategies that can make a difference: (1) Test data made public
should be encrypted with a public key and licensed to disallow derivative
distribution; (2) demand training exclusion controls from closed API holders,
and protect your test data by refusing to evaluate without them; (3) avoid data
which appears with its solution on the internet, and release the web-page
context of internet-derived data along with the data. These strategies are
practical and can be effective in preventing data contamination.
- Abstract(参考訳): 大規模なコーパスで事前訓練されたモデルの増加に伴い、データ汚染は広く普及し、挑戦的になっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
隠れた回答を持つリーダボードや、見当たらないと保証されたテストデータの使用といった戦略は高価で、時間とともに脆弱になります。
すべてのアクターがクリーンなテストデータを評価し、データの汚染を軽減するために協力すると仮定すれば、何ができるか?
1)公開されたテストデータを公開鍵で暗号化してデリバティブ配布を禁止するライセンスを付与すること,(2)クローズドapi保有者からのトレーニング除外制御を要求し,評価を拒むことによってテストデータを保護すること,(3)インターネット上でそのソリューションで現れるデータを避けること,およびデータとともにインターネット由来データのwebページコンテキストをリリースすること,の3つの戦略を提案する。
これらの戦略は実用的であり、データ汚染の防止に有効である。
関連論文リスト
- Mendata: A Framework to Purify Manipulated Training Data [12.406255198638064]
我々は、操作したトレーニングデータを浄化するフレームワークであるMendataを提案する。
Mendataはトレーニングインプットを乱してユーティリティを保持するが、参照データと同様に分散される。
我々は、最先端のデータ中毒やデータ追跡技術にMendataを適用して、その効果を実証する。
論文 参考訳(メタデータ) (2023-12-03T04:40:08Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data
Injection and Model Querying [12.272239607545089]
局所分布シフト合成(textscLDSS)は,分類モデルの訓練に使用される漏洩データを検出する新しい手法である。
textscLDSSは、Naive Bayes、Decision Tree、Random Forestといった様々な分類モデルと互換性がある。
5つの実世界のデータセットにまたがる7種類の分類モデルについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - The Devil's Advocate: Shattering the Illusion of Unexploitable Data
using Diffusion Models [14.018862290487617]
データ保護の摂動に対抗して、慎重に設計された分極処理が可能であることを示す。
AVATARと呼ばれる我々のアプローチは、最近のアベイラビリティーアタックに対して最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-03-15T10:20:49Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Try to Avoid Attacks: A Federated Data Sanitization Defense for
Healthcare IoMT Systems [4.024567343465081]
IoMTの分布は、データ中毒攻撃から保護されるリスクがある。
処方されたデータは、医療データを偽造することによって製造することができる。
本稿では,フェデレーテッドデータ衛生防衛(Federated Data Sanitization Defense)について紹介する。
論文 参考訳(メタデータ) (2022-11-03T05:21:39Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - DAD: Data-free Adversarial Defense at Test Time [21.741026088202126]
ディープモデルは敵の攻撃に非常に敏感である。
プライバシは、トレーニングデータではなく、トレーニングされたモデルのみへのアクセスを制限する、重要な関心事になっている。
我々は,「訓練データと統計値の欠如によるテスト時敵防衛」という全く新しい問題を提案する。
論文 参考訳(メタデータ) (2022-04-04T15:16:13Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Preventing Unauthorized Use of Proprietary Data: Poisoning for Secure
Dataset Release [52.504589728136615]
公開したデータを最小限に修正して、他人がトレーニングモデルに乗らないようにするデータ中毒法を開発しています。
我々は,imagenet分類と顔認識によるアプローチの成功を実証する。
論文 参考訳(メタデータ) (2021-02-16T19:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。