論文の概要: Adversarial Attacks on Data Attribution
- arxiv url: http://arxiv.org/abs/2409.05657v1
- Date: Mon, 9 Sep 2024 14:23:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 14:29:54.978574
- Title: Adversarial Attacks on Data Attribution
- Title(参考訳): データアトリビューションに対する敵対的攻撃
- Authors: Xinhe Wang, Pingbang Hu, Junwei Deng, Jiaqi W. Ma,
- Abstract要約: 本稿では,データ属性に対する2つの基本的逆攻撃手法を提案する。
シャドウアタックは、データ属性ベースの補償を少なくとも200%増やすことができる。
インセンティブ・インフレーションは185%から643%にまで拡大している。
- 参考スコア(独自算出の注目度): 1.734310775322334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data attribution aims to quantify the contribution of individual training data points to the outputs of an AI model, which has been used to measure the value of training data and compensate data providers. Given the impact on financial decisions and compensation mechanisms, a critical question arises concerning the adversarial robustness of data attribution methods. However, there has been little to no systematic research addressing this issue. In this work, we aim to bridge this gap by detailing a threat model with clear assumptions about the adversary's goal and capabilities, and by proposing principled adversarial attack methods on data attribution. We present two such methods, Shadow Attack and Outlier Attack, both of which generate manipulated datasets to adversarially inflate the compensation. The Shadow Attack leverages knowledge about the data distribution in the AI applications, and derives adversarial perturbations through "shadow training", a technique commonly used in membership inference attacks. In contrast, the Outlier Attack does not assume any knowledge about the data distribution and relies solely on black-box queries to the target model's predictions. It exploits an inductive bias present in many data attribution methods - outlier data points are more likely to be influential - and employs adversarial examples to generate manipulated datasets. Empirically, in image classification and text generation tasks, the Shadow Attack can inflate the data-attribution-based compensation by at least 200%, while the Outlier Attack achieves compensation inflation ranging from 185% to as much as 643%.
- Abstract(参考訳): データ属性は、トレーニングデータの価値を測定し、データプロバイダを補うために使用されるAIモデルの出力に対する個々のトレーニングデータポイントの貢献を定量化することを目的としている。
金融決定と補償機構への影響を考えると、データ帰属手法の対角的堅牢性に批判的な疑問が生じる。
しかし、この問題に対処する体系的な研究はほとんど行われていない。
本研究は、敵の目標と能力について明確な仮定で脅威モデルを詳述し、データ属性に対する原則的敵攻撃手法を提案することによって、このギャップを埋めることを目的としている。
本稿では,2つの手法,シャドウアタック(Shadow Attack)とアウトレイラアタック(Outlier Attack)を提案する。
シャドーアタック(シャドーアタック)は、AIアプリケーションにおけるデータ配布に関する知識を活用し、メンバシップ推論攻撃で一般的に使用されるテクニックである"シャドートレーニング(Shadow training)"を通じて、敵の摂動を導出する。
対照的に、Outlier攻撃はデータ配布に関する知識を前提とせず、ターゲットモデルの予測にブラックボックスクエリのみに依存する。
多くのデータ属性メソッドに存在する帰納バイアス(アウトリーなデータポイントは影響を受けやすい)を活用し、操作されたデータセットを生成するために逆例を使用する。
画像分類やテキスト生成タスクにおいて、シャドウアタックはデータ属性ベースの補償を少なくとも200%増加させ、アウトリエアタックは185%から643%の補償インフレーションを達成する。
関連論文リスト
- Confidence Is All You Need for MI Attacks [7.743155804758186]
モデルのトレーニングセットにおけるデータポイントのメンバシップを計測する新しい手法を提案する。
トレーニング中、モデルは基本的にトレーニングデータに'適合'しており、目に見えないデータへの一般化において特に困難に直面している可能性がある。
論文 参考訳(メタデータ) (2023-11-26T18:09:24Z) - When Machine Learning Models Leak: An Exploration of Synthetic Training Data [0.0]
今後2年間で人や家庭が移転するかどうかを予測する機械学習モデルに対する攻撃について検討する。
この攻撃は、攻撃者がモデルをクエリして予測を得ることができ、モデルがトレーニングされたデータの限界分布が公開されていると仮定する。
モデルのトレーニングにおいて、元のデータを合成データに置き換えることが、攻撃者がどのように機密属性を推測できるかにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-10-12T23:47:22Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Transferable Unlearnable Examples [63.64357484690254]
第三者が許可なくデータのトレーニングを行うのを防ぐために、学べない戦略が導入された。
公開前にユーザーのデータに摂動を追加することで、公開データセットでトレーニングされたモデルを無効にすることを目指している。
本稿では、学習不可能な効果を他のトレーニング設定やデータセットに伝達することを目的とした、クラスワイズ・セパビリティ・ディミナント(CSD)に基づく新しい学習不可能な戦略を提案する。
論文 参考訳(メタデータ) (2022-10-18T19:23:52Z) - Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets [53.866927712193416]
トレーニングデータセットを有害にすることができる敵が、このデータセットでトレーニングされたモデルに、他の当事者のプライベート詳細を漏洩させる可能性があることを示す。
私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。
私たちの結果は、機械学習のためのマルチパーティプロトコルにおける暗号化プライバシ保証の関連性に疑問を投げかけました。
論文 参考訳(メタデータ) (2022-03-31T18:06:28Z) - Enhanced Membership Inference Attacks against Machine Learning Models [9.26208227402571]
メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークする個人情報の定量化に使用される。
我々は,AUCスコアを高い精度で達成できる新たな攻撃アルゴリズムを導き,その性能に影響を及ぼすさまざまな要因を強調した。
我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用することができる。
論文 参考訳(メタデータ) (2021-11-18T13:31:22Z) - Gradient-based Data Subversion Attack Against Binary Classifiers [9.414651358362391]
本研究では,攻撃者がラベルのラベルに毒を盛り,システムの機能を損なうようなラベル汚染攻撃に焦点を当てる。
我々は、予測ラベルに対する微分可能凸損失関数の勾配をウォームスタートとして利用し、汚染するデータインスタンスの集合を見つけるための異なる戦略を定式化する。
本実験は,提案手法がベースラインより優れ,計算効率が高いことを示す。
論文 参考訳(メタデータ) (2021-05-31T09:04:32Z) - Privacy-Preserving Federated Learning on Partitioned Attributes [6.661716208346423]
フェデレーション学習は、ローカルデータやモデルを公開することなく、協調的なトレーニングを促進する。
ローカルモデルをチューニングし、プライバシー保護された中間表現をリリースする逆学習ベースの手順を紹介します。
精度低下を緩和するために,前方後方分割アルゴリズムに基づく防御法を提案する。
論文 参考訳(メタデータ) (2021-04-29T14:49:14Z) - Delving into Data: Effectively Substitute Training for Black-box Attack [84.85798059317963]
本稿では,知識盗むプロセスで使用されるデータの分散設計に焦点をあてた,新しい視点代替トレーニングを提案する。
これら2つのモジュールの組み合わせにより、代替モデルとターゲットモデルの一貫性がさらに向上し、敵攻撃の有効性が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-26T07:26:29Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。