論文の概要: Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks
- arxiv url: http://arxiv.org/abs/2305.10160v2
- Date: Wed, 18 Oct 2023 13:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:32:38.108145
- Title: Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks
- Title(参考訳): テストデータを平文にアップロードするのをやめよう:評価ベンチマークによるデータ汚染の軽減のための実践的戦略
- Authors: Alon Jacovi, Avi Caciularu, Omer Goldman, Yoav Goldberg
- Abstract要約: データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
- 参考スコア(独自算出の注目度): 70.39633252935445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data contamination has become prevalent and challenging with the rise of
models pretrained on large automatically-crawled corpora. For closed models,
the training data becomes a trade secret, and even for open models, it is not
trivial to detect contamination. Strategies such as leaderboards with hidden
answers, or using test data which is guaranteed to be unseen, are expensive and
become fragile with time. Assuming that all relevant actors value clean test
data and will cooperate to mitigate data contamination, what can be done? We
propose three strategies that can make a difference: (1) Test data made public
should be encrypted with a public key and licensed to disallow derivative
distribution; (2) demand training exclusion controls from closed API holders,
and protect your test data by refusing to evaluate without them; (3) avoid data
which appears with its solution on the internet, and release the web-page
context of internet-derived data along with the data. These strategies are
practical and can be effective in preventing data contamination.
- Abstract(参考訳): 大規模なコーパスで事前訓練されたモデルの増加に伴い、データ汚染は広く普及し、挑戦的になっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
隠れた回答を持つリーダボードや、見当たらないと保証されたテストデータの使用といった戦略は高価で、時間とともに脆弱になります。
すべてのアクターがクリーンなテストデータを評価し、データの汚染を軽減するために協力すると仮定すれば、何ができるか?
1)公開されたテストデータを公開鍵で暗号化してデリバティブ配布を禁止するライセンスを付与すること,(2)クローズドapi保有者からのトレーニング除外制御を要求し,評価を拒むことによってテストデータを保護すること,(3)インターネット上でそのソリューションで現れるデータを避けること,およびデータとともにインターネット由来データのwebページコンテキストをリリースすること,の3つの戦略を提案する。
これらの戦略は実用的であり、データ汚染の防止に有効である。
関連論文リスト
- Data Taggants: Dataset Ownership Verification via Harmless Targeted Data Poisoning [12.80649024603656]
本稿では,非バックドアデータセットのオーナシップ検証技術であるデータタグを新たに導入する。
我々は、VTモデルとResNetモデルと最先端のトレーニングレシピを用いて、ImageNet1kの包括的で現実的な実験を通してアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-09T12:49:23Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Footprints of Data in a Classifier Model: The Privacy Issues and Their Mitigation through Data Obfuscation [0.9208007322096533]
トレーニングデータのフットプリントを 予測モデルに埋め込むことは
テストデータとトレーニングデータのパフォーマンス品質の違いは、モデルをトレーニングしたデータの受動的識別を引き起こす。
この研究は、データフットプリントから生じる脆弱性に対処することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-02T13:56:37Z) - DataCook: Crafting Anti-Adversarial Examples for Healthcare Data Copyright Protection [47.91906879320081]
DataCookは、配布前に生データを"クッキング"することで、この処理されたデータに対して正常に実行されるモデルの開発を可能にする。
デプロイメントフェーズでは、オリジナルのテストデータをDataCookを通じて“クッキング”して、通常のモデルパフォーマンスを保証する必要がある。
DataCookの背後にあるメカニズムは、モデルの信頼性を高めるために設計された反逆例(AntiAdv)を作ることである。
論文 参考訳(メタデータ) (2024-03-26T14:44:51Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Mendata: A Framework to Purify Manipulated Training Data [12.406255198638064]
我々は、操作したトレーニングデータを浄化するフレームワークであるMendataを提案する。
Mendataはトレーニングインプットを乱してユーティリティを保持するが、参照データと同様に分散される。
我々は、最先端のデータ中毒やデータ追跡技術にMendataを適用して、その効果を実証する。
論文 参考訳(メタデータ) (2023-12-03T04:40:08Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Try to Avoid Attacks: A Federated Data Sanitization Defense for
Healthcare IoMT Systems [4.024567343465081]
IoMTの分布は、データ中毒攻撃から保護されるリスクがある。
処方されたデータは、医療データを偽造することによって製造することができる。
本稿では,フェデレーテッドデータ衛生防衛(Federated Data Sanitization Defense)について紹介する。
論文 参考訳(メタデータ) (2022-11-03T05:21:39Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - DAD: Data-free Adversarial Defense at Test Time [21.741026088202126]
ディープモデルは敵の攻撃に非常に敏感である。
プライバシは、トレーニングデータではなく、トレーニングされたモデルのみへのアクセスを制限する、重要な関心事になっている。
我々は,「訓練データと統計値の欠如によるテスト時敵防衛」という全く新しい問題を提案する。
論文 参考訳(メタデータ) (2022-04-04T15:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。