論文の概要: DataCook: Crafting Anti-Adversarial Examples for Healthcare Data Copyright Protection
- arxiv url: http://arxiv.org/abs/2403.17755v1
- Date: Tue, 26 Mar 2024 14:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:58:20.356174
- Title: DataCook: Crafting Anti-Adversarial Examples for Healthcare Data Copyright Protection
- Title(参考訳): DataCook: 医療データ保護のための反逆的な例を作る
- Authors: Sihan Shang, Jiancheng Yang, Zhenglong Sun, Pascal Fua,
- Abstract要約: DataCookは、配布前に生データを"クッキング"することで、この処理されたデータに対して正常に実行されるモデルの開発を可能にする。
デプロイメントフェーズでは、オリジナルのテストデータをDataCookを通じて“クッキング”して、通常のモデルパフォーマンスを保証する必要がある。
DataCookの背後にあるメカニズムは、モデルの信頼性を高めるために設計された反逆例(AntiAdv)を作ることである。
- 参考スコア(独自算出の注目度): 47.91906879320081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of healthcare, the challenges of copyright protection and unauthorized third-party misuse are increasingly significant. Traditional methods for data copyright protection are applied prior to data distribution, implying that models trained on these data become uncontrollable. This paper introduces a novel approach, named DataCook, designed to safeguard the copyright of healthcare data during the deployment phase. DataCook operates by "cooking" the raw data before distribution, enabling the development of models that perform normally on this processed data. However, during the deployment phase, the original test data must be also "cooked" through DataCook to ensure normal model performance. This process grants copyright holders control over authorization during the deployment phase. The mechanism behind DataCook is by crafting anti-adversarial examples (AntiAdv), which are designed to enhance model confidence, as opposed to standard adversarial examples (Adv) that aim to confuse models. Similar to Adv, AntiAdv introduces imperceptible perturbations, ensuring that the data processed by DataCook remains easily understandable. We conducted extensive experiments on MedMNIST datasets, encompassing both 2D/3D data and the high-resolution variants. The outcomes indicate that DataCook effectively meets its objectives, preventing models trained on AntiAdv from analyzing unauthorized data effectively, without compromising the validity and accuracy of the data in legitimate scenarios. Code and data are available at https://github.com/MedMNIST/DataCook.
- Abstract(参考訳): 医療の世界では、著作権保護と認可されていないサードパーティの誤用という課題がますます重要になっている。
データ著作権保護の伝統的な方法は、データ配信の前に適用され、これらのデータに基づいてトレーニングされたモデルが制御不能になることを意味する。
本稿では、デプロイメントフェーズにおける医療データの著作権保護を目的とした、DataCookという新しいアプローチを紹介する。
DataCookは、配布前に生データを"クッキング"することで、この処理されたデータに対して正常に実行されるモデルの開発を可能にする。
しかしながら、デプロイメントフェーズでは、オリジナルのテストデータをDataCookを通じて“クッキング”して、通常のモデルのパフォーマンスを保証する必要があります。
このプロセスは、デプロイメントフェーズ中に著作権所有者が認可を制御できるようにする。
DataCookの背後にあるメカニズムは、モデルを混乱させようとする標準的な逆例(Adv)とは対照的に、モデルの信頼性を高めるために設計された反逆例(AntiAdv)を作成することである。
Advと同様に、AntiAdvは知覚不能な摂動を導入し、DataCookによって処理されたデータが容易に理解できることを保証する。
我々は2D/3Dデータと高分解能データの両方を含むMedMNISTデータセットの広範な実験を行った。
その結果、DataCookはその目的を効果的に満たし、AntiAdvでトレーニングされたモデルが、合法的なシナリオにおけるデータの妥当性と精度を損なうことなく、不正なデータを効果的に分析するのを防ぐことが示される。
コードとデータはhttps://github.com/MedMNIST/DataCook.comで公開されている。
関連論文リスト
- Data Taggants: Dataset Ownership Verification via Harmless Targeted Data Poisoning [12.80649024603656]
本稿では,非バックドアデータセットのオーナシップ検証技術であるデータタグを新たに導入する。
我々は、VTモデルとResNetモデルと最先端のトレーニングレシピを用いて、ImageNet1kの包括的で現実的な実験を通してアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-09T12:49:23Z) - CAP: Detecting Unauthorized Data Usage in Generative Models via Prompt Generation [1.6141139250981018]
Copyright Audit via Prompts Generation (CAP)は、MLモデルが不正なデータでトレーニングされているかどうかを自動的にテストするフレームワークである。
具体的には、著作権のあるコンテンツを明らかにするためのモデルに適切なキーを生成するアプローチを考案する。
有効性を証明するため,4つのIoTシナリオで収集した測定値について広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-08T08:49:41Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - The Devil's Advocate: Shattering the Illusion of Unexploitable Data
using Diffusion Models [14.018862290487617]
データ保護の摂動に対抗して、慎重に設計された分極処理が可能であることを示す。
AVATARと呼ばれる我々のアプローチは、最近のアベイラビリティーアタックに対して最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-03-15T10:20:49Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - Distill and Fine-tune: Effective Adaptation from a Black-box Source
Model [138.12678159620248]
Unsupervised Domain Adapt (UDA) は、既存のラベル付きデータセット (source) の知識を新しいラベル付きデータセット (target) に転送することを目的としています。
Distill and Fine-tune (Dis-tune) という新しい二段階適応フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-04T05:29:05Z) - Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain
Adaptation [87.60688582088194]
新規な自己監督雑音ラベル学習法を提案する。
本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2021-02-23T10:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。