論文の概要: Smoothed Geometry for Robust Attribution
- arxiv url: http://arxiv.org/abs/2006.06643v2
- Date: Thu, 22 Oct 2020 17:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 10:10:47.189749
- Title: Smoothed Geometry for Robust Attribution
- Title(参考訳): ロバスト属性に対する滑らかな幾何学
- Authors: Zifan Wang, Haofan Wang, Shakul Ramkumar, Matt Fredrikson, Piotr
Mardziel and Anupam Datta
- Abstract要約: 特徴属性はディープニューラルネットワーク(DNN)の振る舞いを説明する一般的なツールである
それらは、近くの入力に対して異なる説明をもたらす攻撃に弱いことが示されている。
この堅牢性の欠如は、敵対的に操作された説明が安全性と信頼性を損なう可能性のある、高度なアプリケーションにおいて特に問題となる。
- 参考スコア(独自算出の注目度): 36.616902063693104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature attributions are a popular tool for explaining the behavior of Deep
Neural Networks (DNNs), but have recently been shown to be vulnerable to
attacks that produce divergent explanations for nearby inputs. This lack of
robustness is especially problematic in high-stakes applications where
adversarially-manipulated explanations could impair safety and trustworthiness.
Building on a geometric understanding of these attacks presented in recent
work, we identify Lipschitz continuity conditions on models' gradient that lead
to robust gradient-based attributions, and observe that smoothness may also be
related to the ability of an attack to transfer across multiple attribution
methods. To mitigate these attacks in practice, we propose an inexpensive
regularization method that promotes these conditions in DNNs, as well as a
stochastic smoothing technique that does not require re-training. Our
experiments on a range of image models demonstrate that both of these
mitigations consistently improve attribution robustness, and confirm the role
that smooth geometry plays in these attacks on real, large-scale models.
- Abstract(参考訳): 特徴帰属はディープニューラルネットワーク(dnn)の振る舞いを説明する一般的なツールであるが、最近は近くの入力に対して異なる説明を生み出す攻撃に対して脆弱であることが示されている。
この堅牢性の欠如は、敵対的な説明が安全性と信頼性を損なう可能性がある高リスクアプリケーションにおいて特に問題となる。
最近の研究で提示されたこれらの攻撃の幾何学的理解に基づいて、ロバストな勾配に基づく帰属につながるモデルの勾配上のリプシッツ連続性条件を特定し、滑らかさは複数の帰属法をまたぐ攻撃能力にも関係しているかもしれないことを観察する。
これらの攻撃を緩和するために,dnnにおけるこれらの条件を促進する安価な正規化手法と,再訓練を必要としない確率的平滑化手法を提案する。
様々な画像モデルを用いた実験により,これらの緩和効果はアトリビューションのロバスト性に一貫して改善し,実大規模モデルに対するこれらの攻撃において滑らかな形状が果たす役割を確認できた。
関連論文リスト
- Improving Adversarial Robustness via Feature Pattern Consistency Constraint [42.50500608175905]
畳み込みニューラルネットワーク(CNN)は、敵の攻撃に対する脆弱性で知られており、重大なセキュリティ上の懸念を呈している。
既存のほとんどの方法は、敵の摂動から学ぶことに集中し、敵の例に過度に適合させるか、推論中にそのような摂動を取り除くことを目指している。
本稿では,特徴パターンの正しい維持能力を高めるために,新規かつ効果的な特徴パターン一貫性制約(FPCC)手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T05:38:30Z) - BadGD: A unified data-centric framework to identify gradient descent vulnerabilities [10.996626204702189]
BadGDは、敵の操作を理解し緩和するための新しい標準を設定している。
この研究は、このようなデータ中心の攻撃によって引き起こされる深刻な脅威を強調し、機械学習における堅牢な防御の必要性を強調している。
論文 参考訳(メタデータ) (2024-05-24T23:39:45Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - What Does the Gradient Tell When Attacking the Graph Structure [44.44204591087092]
本稿では,GNNのメッセージパッシング機構により,攻撃者がクラス間エッジを増大させる傾向があることを示す。
異なるノードを接続することで、攻撃者はより効果的にノード機能を破損させ、そのような攻撃をより有利にする。
本研究では,攻撃効率と非受容性のバランスを保ち,より優れた非受容性を実現するために攻撃効率を犠牲にする,革新的な攻撃損失を提案する。
論文 参考訳(メタデータ) (2022-08-26T15:45:20Z) - Threat Model-Agnostic Adversarial Defense using Diffusion Models [14.603209216642034]
ディープニューラルネットワーク(DNN)は、敵攻撃として知られる、知覚できない悪意のある摂動に対して非常に敏感である。
ディープニューラルネットワーク(DNN)は、敵攻撃として知られる、知覚できない悪意のある摂動に対して非常に敏感である。
論文 参考訳(メタデータ) (2022-07-17T06:50:48Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Detection Defense Against Adversarial Attacks with Saliency Map [7.736844355705379]
ニューラルネットワークは、人間の視覚にほとんど受容できない敵の例に弱いことがよく確認されている。
既存の防衛は、敵の攻撃に対するモデルの堅牢性を強化する傾向にある。
本稿では,新たな雑音と組み合わせた新しい手法を提案し,不整合戦略を用いて敵のサンプルを検出する。
論文 参考訳(メタデータ) (2020-09-06T13:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。