論文の概要: How to Steer Your Adversary: Targeted and Efficient Model Stealing
Defenses with Gradient Redirection
- arxiv url: http://arxiv.org/abs/2206.14157v1
- Date: Tue, 28 Jun 2022 17:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 15:32:02.591814
- Title: How to Steer Your Adversary: Targeted and Efficient Model Stealing
Defenses with Gradient Redirection
- Title(参考訳): 敵を操る方法: グラデーションリダイレクトで防御を盗むターゲットと効率のよいモデル
- Authors: Mantas Mazeika, Bo Li, David Forsyth
- Abstract要約: グラデーション・リダイレクト(グラデーション・リダイレクト)と呼ばれるモデルステイニング・ディフェンスに対する新しいアプローチを提案する。
このアプローチのコアとなるのは、敵のトレーニング更新をターゲットとして操作するための、証明可能な最適かつ効率的なアルゴリズムです。
ネットワークサロゲートの改善と新しい協調防衛戦略を組み合わせることで、GRAD$2$と呼ばれる勾配リダイレクトディフェンスは、小さなユーティリティトレードオフと計算オーバーヘッドの低減を実現します。
- 参考スコア(独自算出の注目度): 16.88718696087103
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Model stealing attacks present a dilemma for public machine learning APIs. To
protect financial investments, companies may be forced to withhold important
information about their models that could facilitate theft, including
uncertainty estimates and prediction explanations. This compromise is harmful
not only to users but also to external transparency. Model stealing defenses
seek to resolve this dilemma by making models harder to steal while preserving
utility for benign users. However, existing defenses have poor performance in
practice, either requiring enormous computational overheads or severe utility
trade-offs. To meet these challenges, we present a new approach to model
stealing defenses called gradient redirection. At the core of our approach is a
provably optimal, efficient algorithm for steering an adversary's training
updates in a targeted manner. Combined with improvements to surrogate networks
and a novel coordinated defense strategy, our gradient redirection defense,
called GRAD${}^2$, achieves small utility trade-offs and low computational
overhead, outperforming the best prior defenses. Moreover, we demonstrate how
gradient redirection enables reprogramming the adversary with arbitrary
behavior, which we hope will foster work on new avenues of defense.
- Abstract(参考訳): モデル盗み攻撃は、パブリック機械学習apiのジレンマをもたらす。
金融投資を保護するため、企業は、不確実性の推定や予測説明など、盗難を促進するモデルに関する重要な情報を保持せざるを得ない可能性がある。
この妥協はユーザーだけでなく外部の透明性にも有害である。
モデル盗難防衛は、モデルを盗むのを難しくし、良心的なユーザーのためにユーティリティを保存することで、このジレンマを解決する。
しかし、既存の防衛は性能が悪く、膨大な計算オーバーヘッドを必要とするか、厳しい実用上のトレードオフを必要とする。
これらの課題に対処するため、勾配リダイレクトと呼ばれる盗難防御をモデル化する新しいアプローチを提案する。
私たちのアプローチの核心は、敵のトレーニングアップデートをターゲットとした方法で操作するための、最適かつ効率的なアルゴリズムです。
GRAD${}^2$ と呼ばれる,ネットワークサロゲートの改良と新たな協調防衛戦略を組み合わさって,小型のユーティリティトレードオフと計算オーバーヘッドの低減を実現し,より優れた先行防衛を達成している。
さらに, グラデーション・リダイレクトにより, 敵を任意の行動で再プログラミングできることを実証し, 新たな防御方法の開発が促進されることを期待する。
関連論文リスト
- Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game [28.33029508522531]
悪意のある攻撃者は大規模なモデルを誘導して脱獄させ、違法なプライバシー侵害情報を含む情報を生成する。
大規模なモデルは、安全アライメントのような技術を使って悪意ある攻撃者の攻撃に対処する。
本研究では,攻撃者に対して安全に応答し,防御意図を隠蔽する,弱い防御機構を実現するためのマルチエージェント攻撃ゲーム手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T07:43:11Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Efficient Defense Against Model Stealing Attacks on Convolutional Neural
Networks [0.548924822963045]
モデル盗難攻撃は知的財産の盗難や他のセキュリティやプライバシーのリスクにつながる可能性がある。
モデル盗難攻撃に対する現在の最先端の防御は、予測確率に摂動を加えることを示唆している。
我々は、シンプルで効果的で効率的な防衛代替案を提案する。
論文 参考訳(メタデータ) (2023-09-04T22:25:49Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - I Know What You Trained Last Summer: A Survey on Stealing Machine
Learning Models and Defences [0.1031296820074812]
本研究では,モデル盗難攻撃について検討し,その性能を評価し,異なる環境で対応する防御技術を探究する。
攻撃・防衛アプローチのための分類法を提案し,目標と利用可能な資源に基づいて適切な攻撃・防衛を選択する方法に関するガイドラインを提供する。
論文 参考訳(メタデータ) (2022-06-16T21:16:41Z) - Defense Against Gradient Leakage Attacks via Learning to Obscure Data [48.67836599050032]
フェデレートラーニングは、効果的なプライバシー保護学習メカニズムと考えられている。
本稿では,不明瞭なデータに学習することで,クライアントのデータ保護のための新しい防御手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T21:03:28Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Opportunities and Challenges in Deep Learning Adversarial Robustness: A
Survey [1.8782750537161614]
本稿では,機械学習アルゴリズムの安全性を保証するために,強靭に訓練されたアルゴリズムを実装するための戦略について検討する。
我々は、敵の攻撃と防衛を分類し、ロバスト最適化問題をmin-max設定で定式化し、それを3つのサブカテゴリに分類する。
論文 参考訳(メタデータ) (2020-07-01T21:00:32Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。