論文の概要: Label Leakage Attacks in Machine Unlearning: A Parameter and Inversion-Based Approach
- arxiv url: http://arxiv.org/abs/2604.07386v1
- Date: Wed, 08 Apr 2026 03:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.436277
- Title: Label Leakage Attacks in Machine Unlearning: A Parameter and Inversion-Based Approach
- Title(参考訳): 機械学習におけるラベル漏洩攻撃 : パラメータと反転に基づくアプローチ
- Authors: Weidong Zheng, Kongyang Chen, Yao Huang, Yuanwei Guo, Yatie Xiao,
- Abstract要約: 既存の技術では様々な未学習手法が提案されているが、非学習データのカテゴリを不注意にリークする可能性がある。
本稿では,カテゴリ非学習シナリオに着目し,複数のシナリオにおける未学習データのカテゴリリークの潜在的な問題を分析する。
モデルパラメータと異なる知識を持つモデル攻撃者の観点から,4つの攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 7.675126927135153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread application of artificial intelligence technologies in face recognition and other fields, data privacy security issues have received extensive attention, especially the \textit{right to be forgotten} emphasized by numerous privacy protection laws. Existing technologies have proposed various unlearning methods, but they may inadvertently leak the categories of unlearned data. This paper focuses on the category unlearning scenario, analyzes the potential problems of category leakage of unlearned data in multiple scenarios, and proposes four attack methods from the perspectives of model parameters and model inversion based on attackers with different knowledge backgrounds. At the level of model parameters, we construct discriminative features by computing either dot products or vector differences between the parameters of the target model and those of auxiliary models trained on subsets of retained data and unrelated data, respectively. These features are then processed via k-means clustering, Youden's Index, and decision tree algorithms to achieve accurate identification of the forgotten class. In the model inversion domain, we design a gradient optimization-based white-box attack and a genetic algorithm-based black-box attack to reconstruct class-prototypical samples. The prediction profiles of these synthesized samples are subsequently analyzed using a threshold criterion and an information entropy criterion to infer the forgotten class. We evaluate the proposed attacks on four standard datasets against five state-of-the-art unlearning algorithms, providing a detailed analysis of the strengths and limitations of each method. Experimental results demonstrate that our approach can effectively infer the classes forgotten by the target model.
- Abstract(参考訳): 顔認識やその他の分野における人工知能技術の広範な適用により、データプライバシのセキュリティ問題は、特に多くのプライバシ保護法で強調されている‘textit{right}’など、広く注目を集めている。
既存の技術では様々な未学習手法が提案されているが、非学習データのカテゴリを不注意にリークする可能性がある。
本稿では,カテゴリ非学習シナリオに着目し,複数のシナリオにおける未学習データのカテゴリリークの潜在的な問題を分析し,異なる知識を持つ攻撃者を対象としたモデルパラメータとモデル反転の観点から,4つの攻撃手法を提案する。
モデルパラメータのレベルでは、対象モデルのパラメータと、保持データと非関連データのサブセットに基づいて訓練された補助モデルのパラメータ間のドット積またはベクトル差を計算し、識別的特徴を構築する。
これらの機能は、k-meansクラスタリング、Youden's Index、決定木アルゴリズムを通じて処理され、忘れられたクラスの正確な識別を実現する。
モデル反転領域では、勾配最適化に基づくホワイトボックス攻撃と遺伝的アルゴリズムに基づくブラックボックス攻撃を設計し、クラス-プロトタイプサンプルを再構成する。
その後、これらの合成標本の予測プロファイルをしきい値基準と情報エントロピー基準を用いて分析し、忘れられたクラスを推測する。
提案手法は,5つの最先端の未学習アルゴリズムに対する4つの標準データセットに対する攻撃について評価し,各手法の強みと限界を詳細に分析する。
実験結果から,本手法は対象モデルに忘れられたクラスを効果的に推測できることが示された。
関連論文リスト
- DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [70.77570343385928]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。
回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。
さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。
私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文 参考訳(メタデータ) (2025-07-08T03:07:15Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - Addressing Key Challenges of Adversarial Attacks and Defenses in the Tabular Domain: A Methodological Framework for Coherence and Consistency [25.830427564563422]
CSAD(Class-Specific Anomaly Detection)は,新しい異常検出手法である。
CSADは, 広い良性分布ではなく, 予測されたクラス分布に対して, 対数サンプルを評価する。
本評価では, 異常検出率とSHAPに基づく評価を併用し, 対向検体品質のより包括的測定を行う。
論文 参考訳(メタデータ) (2024-12-10T09:17:09Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Enhanced Membership Inference Attacks against Machine Learning Models [9.26208227402571]
メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークする個人情報の定量化に使用される。
我々は,AUCスコアを高い精度で達成できる新たな攻撃アルゴリズムを導き,その性能に影響を及ぼすさまざまな要因を強調した。
我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用することができる。
論文 参考訳(メタデータ) (2021-11-18T13:31:22Z) - Gradient-based Data Subversion Attack Against Binary Classifiers [9.414651358362391]
本研究では,攻撃者がラベルのラベルに毒を盛り,システムの機能を損なうようなラベル汚染攻撃に焦点を当てる。
我々は、予測ラベルに対する微分可能凸損失関数の勾配をウォームスタートとして利用し、汚染するデータインスタンスの集合を見つけるための異なる戦略を定式化する。
本実験は,提案手法がベースラインより優れ,計算効率が高いことを示す。
論文 参考訳(メタデータ) (2021-05-31T09:04:32Z) - Adversarial Poisoning Attacks and Defense for General Multi-Class Models
Based On Synthetic Reduced Nearest Neighbors [14.968442560499753]
最先端の機械学習モデルは、データ中毒攻撃に弱い。
本論文では,データのマルチモダリティに基づく新しいモデルフリーラベルフリップ攻撃を提案する。
第二に、SRNN(Synthetic reduced Nearest Neighbor)モデルに基づく新しい防御技術を提案する。
論文 参考訳(メタデータ) (2021-02-11T06:55:40Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - PermuteAttack: Counterfactual Explanation of Machine Learning Credit
Scorecards [0.0]
本稿では、金融における小売クレジットスコアリングに使用される機械学習(ML)モデルの検証と説明のための新しい方向性と方法論について述べる。
提案するフレームワークは人工知能(AI)のセキュリティと敵MLの分野からモチベーションを引き出す。
論文 参考訳(メタデータ) (2020-08-24T00:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。