論文の概要: Towards a Game-theoretic Understanding of Explanation-based Membership Inference Attacks
- arxiv url: http://arxiv.org/abs/2404.07139v1
- Date: Wed, 10 Apr 2024 16:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 13:51:53.757937
- Title: Towards a Game-theoretic Understanding of Explanation-based Membership Inference Attacks
- Title(参考訳): 説明に基づくメンバーシップ推論攻撃のゲーム理論的理解に向けて
- Authors: Kavita Kumari, Murtuza Jadliwala, Sumit Kumar Jha, Anindya Maiti,
- Abstract要約: ブラックボックス機械学習(ML)モデルは、メンバーシップ推論攻撃(MIA)のようなプライバシ脅威を実行するために利用することができる。
既存の作業は、敵とターゲットMLモデルの間の単一の"What if"相互作用シナリオにおいてのみ、MIAを分析している。
このような最適しきい値が存在することを証明し、MIAの起動に使用できる音響数学的定式化を提案する。
- 参考スコア(独自算出の注目度): 8.06071340190569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model explanations improve the transparency of black-box machine learning (ML) models and their decisions; however, they can also be exploited to carry out privacy threats such as membership inference attacks (MIA). Existing works have only analyzed MIA in a single "what if" interaction scenario between an adversary and the target ML model; thus, it does not discern the factors impacting the capabilities of an adversary in launching MIA in repeated interaction settings. Additionally, these works rely on assumptions about the adversary's knowledge of the target model's structure and, thus, do not guarantee the optimality of the predefined threshold required to distinguish the members from non-members. In this paper, we delve into the domain of explanation-based threshold attacks, where the adversary endeavors to carry out MIA attacks by leveraging the variance of explanations through iterative interactions with the system comprising of the target ML model and its corresponding explanation method. We model such interactions by employing a continuous-time stochastic signaling game framework. In our framework, an adversary plays a stopping game, interacting with the system (having imperfect information about the type of an adversary, i.e., honest or malicious) to obtain explanation variance information and computing an optimal threshold to determine the membership of a datapoint accurately. First, we propose a sound mathematical formulation to prove that such an optimal threshold exists, which can be used to launch MIA. Then, we characterize the conditions under which a unique Markov perfect equilibrium (or steady state) exists in this dynamic system. By means of a comprehensive set of simulations of the proposed game model, we assess different factors that can impact the capability of an adversary to launch MIA in such repeated interaction settings.
- Abstract(参考訳): モデル説明は、ブラックボックス機械学習(ML)モデルの透明性とそれらの決定を改善するが、メンバーシップ推論攻撃(MIA)のようなプライバシー上の脅威を実行するために利用することもできる。
既存の作業は、敵とターゲットMLモデルの間の単一の"What if"相互作用シナリオでのみMIAを分析しているため、繰り返しのインタラクション設定でMIAを起動する際の敵の能力に影響を与える要因を特定することはできない。
さらに、これらの研究は、対象モデルの構造に関する敵の知識に関する仮定に依存しており、したがって、メンバーと非メンバーを区別するために必要な事前定義されたしきい値の最適性を保証しない。
本稿では,対象MLモデルとそれに対応する説明方法からなるシステムとの反復的相互作用を通じて,説明の分散を利用してMIA攻撃を行おうとする敵の努力を,説明に基づくしきい値攻撃の領域を探索する。
連続時間確率的シグナリングゲームフレームワークを用いて,このようなインタラクションをモデル化する。
本フレームワークでは,システム(敵の種類に関する不完全な情報,すなわち正直または悪意)と対話して説明分散情報を取得し,データポイントのメンバシップを正確に決定するための最適なしきい値を算出する。
まず、このような最適しきい値が存在することを証明し、MIAの起動に使用できる音響数学的定式化を提案する。
そして、この力学系に一意なマルコフ完全平衡(あるいは定常状態)が存在する条件を特徴づける。
提案したゲームモデルの総合的なシミュレーションにより、このような反復的な相互作用設定において、敵がMIAを起動する能力に影響を与える様々な要因を評価する。
関連論文リスト
- Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Adversary-Augmented Simulation to evaluate fairness on HyperLedger Fabric [0.0]
本稿では, 敵の仮定, 目標, 能力といった概念に基づいて構築する。
古典的な分散システムモデルに基づいて、逆アクションの使用を分類し、制限する。
本研究の目的は,各種システムモデルにおけるプロトコルの特性に及ぼすこれらの許容行動の影響について検討することである。
論文 参考訳(メタデータ) (2024-03-21T12:20:36Z) - On the Impact of Uncertainty and Calibration on Likelihood-Ratio Membership Inference Attacks [42.18575921329484]
我々は,情報理論の枠組みを用いて,最先端の確率比攻撃(LiRA)の性能を解析する。
我々は、MIAの有効性に対する不確実性と校正の影響についての洞察を提供することを目的として、MIA敵の利点に基づいて境界を導出する。
論文 参考訳(メタデータ) (2024-02-16T13:41:18Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Quantifying Membership Inference Vulnerability via Generalization Gap
and Other Model Metrics [4.416432468665362]
対象モデルの一般化ギャップが,有効決定論的ブラックボックスメンバーシップ推論攻撃(MIA)にどのように結びつくかを示す。
この攻撃は、ネットワークのトレーニングとパフォーマンスに関する特定の可能なメトリクスのみにアクセスすると、期待された意味で最適であることが示されている。
論文 参考訳(メタデータ) (2020-09-11T21:53:50Z) - Improving Robustness to Model Inversion Attacks via Mutual Information
Regularization [12.079281416410227]
本稿では,モデル逆転攻撃に対する防御機構について検討する。
MIは、ターゲット機械学習モデルへのアクセスからトレーニングデータ配布に関する情報を推測することを目的とした、プライバシ攻撃の一種である。
我々はMI攻撃に対するMID(Multual Information Regularization based Defense)を提案する。
論文 参考訳(メタデータ) (2020-09-11T06:02:44Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。