論文の概要: Identifying a Training-Set Attack's Target Using Renormalized Influence
Estimation
- arxiv url: http://arxiv.org/abs/2201.10055v1
- Date: Tue, 25 Jan 2022 02:36:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 07:02:21.735260
- Title: Identifying a Training-Set Attack's Target Using Renormalized Influence
Estimation
- Title(参考訳): 正規化影響推定を用いたトレーニングセット攻撃目標の同定
- Authors: Zayd Hammoudeh and Daniel Lowd
- Abstract要約: 本研究は、特定のテストインスタンスがトレーニングセットアタックのターゲットであるかどうかを判定するターゲット識別タスクを提案する。
単一の攻撃方法やデータモダリティではなく、各トレーニングインスタンスのモデル予測への貢献度を定量化するインフルエンス推定に基づいて構築する。
- 参考スコア(独自算出の注目度): 11.663072799764542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Targeted training-set attacks inject malicious instances into the training
set to cause a trained model to mislabel one or more specific test instances.
This work proposes the task of target identification, which determines whether
a specific test instance is the target of a training-set attack. This can then
be combined with adversarial-instance identification to find (and remove) the
attack instances, mitigating the attack with minimal impact on other
predictions. Rather than focusing on a single attack method or data modality,
we build on influence estimation, which quantifies each training instance's
contribution to a model's prediction. We show that existing influence
estimators' poor practical performance often derives from their over-reliance
on instances and iterations with large losses. Our renormalized influence
estimators fix this weakness; they far outperform the original ones at
identifying influential groups of training examples in both adversarial and
non-adversarial settings, even finding up to 100% of adversarial training
instances with no clean-data false positives. Target identification then
simplifies to detecting test instances with anomalous influence values. We
demonstrate our method's generality on backdoor and poisoning attacks across
various data domains including text, vision, and speech. Our source code is
available at https://github.com/ZaydH/target_identification .
- Abstract(参考訳): ターゲットとなるトレーニングセット攻撃は、トレーニングセットに悪意のあるインスタンスを注入し、トレーニングされたモデルが1つ以上の特定のテストインスタンスをラベル付けする原因となる。
本研究は、特定のテストインスタンスがトレーニングセット攻撃のターゲットであるかどうかを決定するターゲット識別タスクを提案する。
これは敵のインスタンス識別と組み合わせて攻撃のインスタンスを見つけ(そして削除)、他の予測に最小限の影響で攻撃を軽減できる。
単一の攻撃方法やデータモダリティに注目するのではなく、モデルの予測に対する各トレーニングインスタンスの貢献度を定量化する影響推定に基づいています。
既存の影響推定器の実用的性能の低さは、多くの場合、大きな損失を伴うインスタンスやイテレーションへの過度な依存から生じる。
我々の再正規化された影響推定装置は、この弱点を解消し、敵対的および非敵対的両方のトレーニング例を識別し、クリーンなデータ偽陽性のない敵的トレーニングインスタンスの最大100%を見つけることで、元のものよりもはるかに優れています。
ターゲット識別は、異常な影響値を持つテストインスタンスの検出を単純化する。
本手法は,テキスト,視覚,音声など,さまざまなデータ領域におけるバックドアおよび毒殺攻撃に対する一般性を示す。
ソースコードはhttps://github.com/zaydh/target_identificationで入手できます。
関連論文リスト
- DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Identifying Adversarially Attackable and Robust Samples [1.4213973379473654]
アドリアックは、入力サンプルに小さな、知覚不能な摂動を挿入し、ディープラーニングモデルの出力に大きな、望ましくない変化を引き起こす。
本研究は, 対人攻撃に最も影響を受けやすいサンプルを同定することを目的とした, サンプル攻撃可能性の概念を紹介する。
本研究では,未知のターゲットモデルに対する未知のデータセットにおいて,逆攻撃可能で頑健なサンプルを識別するディープラーニングベースの検出器を提案する。
論文 参考訳(メタデータ) (2023-01-30T13:58:14Z) - Object-fabrication Targeted Attack for Object Detection [54.10697546734503]
物体検出の敵攻撃は 標的攻撃と未標的攻撃を含む。
新たなオブジェクトファブリケーションターゲット攻撃モードは、特定のターゲットラベルを持つ追加の偽オブジェクトをファブリケートする検出器を誤解させる可能性がある。
論文 参考訳(メタデータ) (2022-12-13T08:42:39Z) - Membership Inference Attacks by Exploiting Loss Trajectory [19.900473800648243]
そこで本研究では,対象モデルのトレーニングプロセス全体から,メンバシップ情報を利用する新たな攻撃手法であるシステムを提案する。
我々の攻撃は、既存の方法よりも0.1%低い偽陽性率で、少なくとも6$times$高い真陽性率を達成する。
論文 参考訳(メタデータ) (2022-08-31T16:02:26Z) - Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets [53.866927712193416]
トレーニングデータセットを有害にすることができる敵が、このデータセットでトレーニングされたモデルに、他の当事者のプライベート詳細を漏洩させる可能性があることを示す。
私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。
私たちの結果は、機械学習のためのマルチパーティプロトコルにおける暗号化プライバシ保証の関連性に疑問を投げかけました。
論文 参考訳(メタデータ) (2022-03-31T18:06:28Z) - Membership Inference Attacks From First Principles [24.10746844866869]
メンバシップ推論攻撃では、トレーニングされた機械学習モデルをクエリして、モデルのトレーニングデータセットに特定のサンプルが含まれているかどうかを予測することが可能になる。
これらの攻撃は現在、平均ケースの"精度"メトリクスを使用して評価されており、攻撃がトレーニングセットの任意のメンバを確実に識別できるかどうかを特徴付けることができない。
攻撃は偽陽性率の低い偽陽性率で計算することで評価されるべきであり、このような評価を行った場合、ほとんどの事前攻撃は不十分である。
我々の攻撃は偽陽性率の低いところで10倍強力であり、既存の指標に対する以前の攻撃を厳密に支配している。
論文 参考訳(メタデータ) (2021-12-07T08:47:00Z) - Enhanced Membership Inference Attacks against Machine Learning Models [9.26208227402571]
メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークする個人情報の定量化に使用される。
我々は,AUCスコアを高い精度で達成できる新たな攻撃アルゴリズムを導き,その性能に影響を及ぼすさまざまな要因を強調した。
我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用することができる。
論文 参考訳(メタデータ) (2021-11-18T13:31:22Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z) - Membership Leakage in Label-Only Exposures [10.875144776014533]
本稿では,機械学習モデルに対する決定に基づくメンバシップ推論攻撃を提案する。
特に、転送攻撃と境界攻撃という2種類の意思決定ベースの攻撃を考案する。
また,量的および質的分析に基づく会員推定の成功に関する新たな知見も提示する。
論文 参考訳(メタデータ) (2020-07-30T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。