論文の概要: Membership Inference Attacks for Unseen Classes
- arxiv url: http://arxiv.org/abs/2506.06488v2
- Date: Sat, 25 Oct 2025 21:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 22:08:13.744807
- Title: Membership Inference Attacks for Unseen Classes
- Title(参考訳): 未知のクラスに対するメンバーシップ推論攻撃
- Authors: Pratiksha Thaker, Neil Kale, Zhiwei Steven Wu, Virginia Smith,
- Abstract要約: シャドーモデルに依存する攻撃は、重要なAI安全アプリケーションで破滅的に失敗する可能性があることを示す。
この問題はシャドウモデルパラダイムの中では難解に思えるが、量子回帰攻撃は有望なアプローチである。
- 参考スコア(独自算出の注目度): 34.7456021961386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The state-of-the-art for membership inference attacks on machine learning models is a class of attacks based on shadow models that mimic the behavior of the target model on subsets of held-out nonmember data. However, we find that this class of attacks is fundamentally limited because of a key assumption -- that the shadow models can replicate the target model's behavior on the distribution of interest. As a result, we show that attacks relying on shadow models can fail catastrophically on critical AI safety applications where data access is restricted due to legal, ethical, or logistical constraints, so that the shadow models have no reasonable signal on the query examples. Although this problem seems intractable within the shadow model paradigm, we find that quantile regression attacks are a promising approach in this setting, as these models learn features of member examples that can generalize to unseen classes. We demonstrate this both empirically and theoretically, showing that quantile regression attacks achieve up to 11x the TPR of shadow model-based approaches in practice, and providing a theoretical model that outlines the generalization properties required for this approach to succeed. Our work identifies an important failure mode in existing MIAs and provides a cautionary tale for practitioners that aim to directly use existing tools for real-world applications of AI safety.
- Abstract(参考訳): 機械学習モデルに対するメンバシップ推論攻撃の最先端は、保持された非メンバーデータのサブセットにターゲットモデルの振る舞いを模倣するシャドウモデルに基づく攻撃のクラスである。
しかし、このタイプの攻撃は、主要な前提であるシャドウモデルが関心の分布においてターゲットモデルの振る舞いを再現できるため、基本的に制限されていることが分かりました。
その結果、シャドウモデルに依存する攻撃は、法的、倫理的、論理的制約によりデータアクセスが制限されている重要なAI安全アプリケーションで破滅的に失敗する可能性があることを示し、シャドウモデルがクエリの例に合理的なシグナルを持たないようにした。
この問題は、シャドウモデルパラダイムの中では難解に思えるが、量子回帰攻撃はこの設定において有望なアプローチであり、これらのモデルは、目に見えないクラスに一般化できるメンバー例の特徴を学習する。
実験的および理論的にこれを実証し、量子回帰攻撃が実際にシャドウモデルに基づくアプローチのTPRの最大11倍に達することを示すとともに、この手法が成功するために必要な一般化特性を概説する理論モデルを提供する。
我々の研究は、既存のMIAの重要な障害モードを特定し、AI安全性の現実的な応用に既存のツールを直接使用する実践者に対して、注意深い物語を提供する。
関連論文リスト
- On Transfer-based Universal Attacks in Pure Black-box Setting [94.92884394009288]
攻撃性能における対象モデルデータの事前知識とクラス数の役割について検討する。
また、分析に基づいていくつかの興味深い洞察を与え、先行が伝達可能性スコアの過大評価を引き起こすことを示した。
論文 参考訳(メタデータ) (2025-04-11T10:41:20Z) - Membership Inference Attacks on Diffusion Models via Quantile Regression [30.30033625685376]
我々は,家族関係推論(MI)攻撃による拡散モデルのプライバシー上の脆弱性を実証する。
提案したMI攻撃は、トレーニングに使用されていない例における再構成損失の分布を予測(定量化)する量子レグレッションモデルを学習する。
我々の攻撃は従来の最先端攻撃よりも優れており、計算コストは著しく低い。
論文 参考訳(メタデータ) (2023-12-08T16:21:24Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Scalable Membership Inference Attacks via Quantile Regression [35.33158339354343]
メンバーシップ推論攻撃は、トレーニングで特定の例が使用されたかどうかに関わらず、トレーニングされたモデルへのブラックボックスアクセスを使用して決定するように設計されている。
本稿では,トレーニングに使用されていない点に対する攻撃下でモデルによって誘導される信頼度スコアの分布に基づいて,量子回帰に基づく新たな攻撃方法を提案する。
論文 参考訳(メタデータ) (2023-07-07T16:07:00Z) - Membership Inference Attacks by Exploiting Loss Trajectory [19.900473800648243]
そこで本研究では,対象モデルのトレーニングプロセス全体から,メンバシップ情報を利用する新たな攻撃手法であるシステムを提案する。
我々の攻撃は、既存の方法よりも0.1%低い偽陽性率で、少なくとも6$times$高い真陽性率を達成する。
論文 参考訳(メタデータ) (2022-08-31T16:02:26Z) - An Efficient Subpopulation-based Membership Inference Attack [11.172550334631921]
我々は、数百のシャドウモデルを訓練する必要のない、根本的に異なるMIアタックアプローチを導入する。
我々は、トレーニングコストを大幅に削減しつつ、最先端の会員推定精度を達成する。
論文 参考訳(メタデータ) (2022-03-04T00:52:06Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - "What's in the box?!": Deflecting Adversarial Attacks by Randomly
Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。
我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文 参考訳(メタデータ) (2021-02-09T20:07:13Z) - Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer
Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。
また,移動学習モデルに対するブラックボックス攻撃手法を提案する。
ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文 参考訳(メタデータ) (2020-08-25T15:04:32Z) - Leveraging Siamese Networks for One-Shot Intrusion Detection Model [0.0]
侵入検知システムを強化するための機械学習(ML)が重要な研究対象となっている。
モデルの再トレーニングは、十分な量のデータを取得するのに必要なタイムウインドウのために、ネットワークが攻撃を受けやすいようにする。
ここでは、「ワンショットラーニング」と呼ばれる補完的なアプローチで、新しい攻撃クラスを識別するために、新しい攻撃クラスの限られた例を用いる。
Siamese Networkは、機能ではなく、ペアの類似性に基づいてクラスを区別するように訓練されており、新しい、以前は目に見えない攻撃を識別することができる。
論文 参考訳(メタデータ) (2020-06-27T11:40:01Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。