論文の概要: Defending Against Transfer Attacks From Public Models
- arxiv url: http://arxiv.org/abs/2310.17645v1
- Date: Thu, 26 Oct 2023 17:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:15:28.059749
- Title: Defending Against Transfer Attacks From Public Models
- Title(参考訳): 公共モデルからの転送攻撃に対する防御
- Authors: Chawin Sitawarin, Jaewon Chang, David Huang, Wesson Altoyan, David
Wagner
- Abstract要約: 本稿では,公用サロゲートモデルによる転送攻撃を敵が頼りにする,新たな実用的脅威モデルを提案する。
本研究では,この環境での移動攻撃を評価し,ゲーム理論の観点から専門的な防御手法を提案する。
この脅威モデルの下では、我々の防衛であるPubDefは、最先端のホワイトボックス対敵訓練を、通常の精度でほとんど損なわない大きなマージンで上回っている。
- 参考スコア(独自算出の注目度): 6.4384222878156745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks have been a looming and unaddressed threat in the
industry. However, through a decade-long history of the robustness evaluation
literature, we have learned that mounting a strong or optimal attack is
challenging. It requires both machine learning and domain expertise. In other
words, the white-box threat model, religiously assumed by a large majority of
the past literature, is unrealistic. In this paper, we propose a new practical
threat model where the adversary relies on transfer attacks through publicly
available surrogate models. We argue that this setting will become the most
prevalent for security-sensitive applications in the future. We evaluate the
transfer attacks in this setting and propose a specialized defense method based
on a game-theoretic perspective. The defenses are evaluated under 24 public
models and 11 attack algorithms across three datasets (CIFAR-10, CIFAR-100, and
ImageNet). Under this threat model, our defense, PubDef, outperforms the
state-of-the-art white-box adversarial training by a large margin with almost
no loss in the normal accuracy. For instance, on ImageNet, our defense achieves
62% accuracy under the strongest transfer attack vs only 36% of the best
adversarially trained model. Its accuracy when not under attack is only 2%
lower than that of an undefended model (78% vs 80%). We release our code at
https://github.com/wagner-group/pubdef.
- Abstract(参考訳): 敵の攻撃は、業界における略奪的かつ不当な脅威だった。
しかし,ロバスト性評価文献の10年の歴史を通して,強固あるいは最適攻撃の実施が困難であることがわかった。
機械学習とドメインの専門知識の両方が必要です。
言い換えれば、過去の文献の大半が宗教的に想定していたホワイトボックスの脅威モデルは非現実的である。
本稿では,攻撃相手が公開サーロゲートモデルを介して攻撃を伝達する,新たな実用的脅威モデルを提案する。
我々は、この設定がセキュリティに敏感なアプリケーションにとって、今後最も普及するだろうと主張している。
本設定における転送攻撃を評価し,ゲーム理論的な視点に基づく特殊防衛手法を提案する。
防衛は3つのデータセット(CIFAR-10、CIFAR-100、ImageNet)にわたる24の公開モデルと11の攻撃アルゴリズムで評価される。
この脅威モデルの下では、我々の防衛であるPubDefは、最先端のホワイトボックス対敵訓練を通常の精度でほとんど損なわない大きなマージンで上回っている。
例えば、ImageNetでは、最強の転送攻撃の下で、我々の防御は62%の精度を達成しています。
攻撃を受けた場合の精度は、防御されていないモデルよりもわずか2%低い(78%対80%)。
コードはhttps://github.com/wagner-group/pubdefでリリースします。
関連論文リスト
- Gradient Masking All-at-Once: Ensemble Everything Everywhere Is Not Robust [65.95797963483729]
あらゆるものをアンサンブルすることは、敵の例に対する防御である。
この防御は敵の攻撃に対して堅牢ではないことを示す。
次に、標準的なアダプティブアタック技術を用いて、防御の堅牢な精度を低下させる。
論文 参考訳(メタデータ) (2024-11-22T10:17:32Z) - Versatile Defense Against Adversarial Attacks on Image Recognition [2.9980620769521513]
現実の環境での敵の攻撃に対する防御は、アンチウイルスソフトの動作方法と比較することができる。
画像から画像への翻訳をベースとした防御手法が実現可能であると考えられる。
訓練されたモデルは、分類精度をほぼゼロから平均86%に改善した。
論文 参考訳(メタデータ) (2024-03-13T01:48:01Z) - MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.70417016955459]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。
我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。
9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (2023-02-21T20:26:39Z) - Adversarial Transfer Attacks With Unknown Data and Class Overlap [19.901933940805684]
現在の移動攻撃の研究は、攻撃者にとって非現実的な優位性を持っている。
攻撃者および被害者が不完全な設定で利用可能なデータに着目した敵攻撃の転送に関する最初の研究について述べる。
この脅威モデルは、医学、マルウェアなどの応用に関係している。
論文 参考訳(メタデータ) (2021-09-23T03:41:34Z) - Attacking Adversarial Attacks as A Defense [40.8739589617252]
敵の攻撃は 知覚不能な摂動で ディープニューラルネットワークを騙す
逆向きに訓練されたモデルでは、小さなランダムノイズで逆向きの例を摂動することで、誤った予測を無効にすることができる。
我々はより効果的な防御的摂動を構築することで攻撃に対抗することを提案する。
論文 参考訳(メタデータ) (2021-06-09T09:31:10Z) - Fighting Gradients with Gradients: Dynamic Defenses against Adversarial
Attacks [72.59081183040682]
我々は,防御エントロピー最小化(dent)により,テスト中にモデルと入力に適応する動的防御を提案する。
dentは、CIFAR-10/100およびImageNetに対する、敵に訓練された防御と名指しで訓練されたモデルの堅牢性を改善する。
論文 参考訳(メタデータ) (2021-05-18T17:55:07Z) - Lagrangian Objective Function Leads to Improved Unforeseen Attack
Generalization in Adversarial Training [0.0]
対人訓練(AT)は、訓練中に使用される攻撃に対して堅牢なモデルに到達するのに有効であることが示されている。
我々は、上記の問題を緩和する簡易なAT修正を提案する。
我々は,攻撃の一般化を意図した他の攻撃手法よりも,攻撃速度が速いことを示す。
論文 参考訳(メタデータ) (2021-03-29T07:23:46Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - RayS: A Ray Searching Method for Hard-label Adversarial Attack [99.72117609513589]
我々は、レイサーチ攻撃(RayS)を提案し、これはハードラベル攻撃の有効性と効率を大幅に改善する。
モデルの正当性チェックとしても使用できる。
論文 参考訳(メタデータ) (2020-06-23T07:01:50Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。