論文の概要: Improving Interpretability via Regularization of Neural Activation
Sensitivity
- arxiv url: http://arxiv.org/abs/2211.08686v1
- Date: Wed, 16 Nov 2022 05:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 14:35:59.593509
- Title: Improving Interpretability via Regularization of Neural Activation
Sensitivity
- Title(参考訳): ニューラルアクティベーション感度の正規化による解釈可能性の向上
- Authors: Ofir Moshe, Gil Fidel, Ron Bitton, Asaf Shabtai
- Abstract要約: 最先端のディープニューラルネットワーク(DNN)は多くの現実世界のタスクに取り組むのに非常に効果的である。
彼らは敵対的な攻撃を受けやすく、その不透明さはユーザーのアウトプットに対する信頼を損なう。
ニューラルアクティベーション感度の正規化に基づくDNNの解釈性向上のための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 20.407987149443997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art deep neural networks (DNNs) are highly effective at tackling
many real-world tasks. However, their wide adoption in mission-critical
contexts is hampered by two major weaknesses - their susceptibility to
adversarial attacks and their opaqueness. The former raises concerns about the
security and generalization of DNNs in real-world conditions, whereas the
latter impedes users' trust in their output. In this research, we (1) examine
the effect of adversarial robustness on interpretability and (2) present a
novel approach for improving the interpretability of DNNs that is based on
regularization of neural activation sensitivity. We evaluate the
interpretability of models trained using our method to that of standard models
and models trained using state-of-the-art adversarial robustness techniques.
Our results show that adversarially robust models are superior to standard
models and that models trained using our proposed method are even better than
adversarially robust models in terms of interpretability.
- Abstract(参考訳): 最先端のディープニューラルネットワーク(DNN)は多くの現実世界のタスクに取り組むのに非常に効果的である。
しかし、ミッションクリティカルな文脈における彼らの広範な採用は、敵の攻撃に対する感受性と不透明さの2つの大きな弱点によって妨げられている。
前者は現実世界の状況下でのDNNのセキュリティと一般化に関する懸念を高め、後者はユーザーのアウトプットに対する信頼を妨げている。
本研究では,1) 対向的頑健性が解釈可能性に及ぼす影響について検討し,(2) ニューラルアクティベーション感度の正規化に基づくDNNの解釈性向上のための新しいアプローチを提案する。
我々は,本手法を用いて訓練したモデルの,最先端の対角性技術を用いて訓練した標準モデルとモデルの解釈可能性を評価する。
提案手法を用いて学習したモデルは,解釈可能性の観点からは,正反対の頑健なモデルよりも優れていることを示す。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Interpretable Computer Vision Models through Adversarial Training:
Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。
標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文 参考訳(メタデータ) (2023-07-04T13:51:55Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Improved and Interpretable Defense to Transferred Adversarial Examples
by Jacobian Norm with Selective Input Gradient Regularization [31.516568778193157]
ディープニューラルネットワーク(DNN)の堅牢性を改善するために、AT(Adversarial Training)がよく用いられる。
本研究では,ジャコビアンノルムと選択的入力勾配正規化(J-SIGR)に基づくアプローチを提案する。
実験により、提案したJ-SIGRは、転送された敵攻撃に対するロバスト性を向上し、ニューラルネットワークからの予測が容易に解釈できることが示されている。
論文 参考訳(メタデータ) (2022-07-09T01:06:41Z) - Latent Boundary-guided Adversarial Training [61.43040235982727]
モデルトレーニングに敵の例を注入する最も効果的な戦略は、敵のトレーニングであることが証明されている。
本稿では, LAtent bounDary-guided aDvErsarial tRaining という新たな逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:40:55Z) - On the Properties of Adversarially-Trained CNNs [4.769747792846005]
敵のトレーニングは、現代のニューラルネットワークアーキテクチャにおける敵の例に対して堅牢性を強制する効果的な訓練パラダイムであることが証明された。
敵攻撃に対するロバスト性を実装するメカニズムに光を当て、敵訓練されたモデルの驚くべき特性について述べる。
論文 参考訳(メタデータ) (2022-03-17T11:11:52Z) - AED: An black-box NLP classifier model attacker [8.15167980163668]
Deep Neural Networks(DNN)は、コネクテッドおよび自動化された車両、疾患、雇用といった領域における現実世界のタスクの解決に成功している。
これらのDNNモデルの潜在的なバイアスと堅牢性に関する懸念が高まっている。
本稿では,単語レベルのNLP分類器攻撃モデル"AED"を提案する。
論文 参考訳(メタデータ) (2021-12-22T04:25:23Z) - Balancing Robustness and Sensitivity using Feature Contrastive Learning [95.86909855412601]
堅牢性を促進する方法は、希少なパターンや表現不足パターンに対するモデルの感受性を損なう可能性がある。
本稿では,より高次文脈的有用性を持つ機能に対して,モデルにより敏感な特徴を与える機能コントラスト学習(FCL)を提案する。
論文 参考訳(メタデータ) (2021-05-19T20:53:02Z) - On the benefits of robust models in modulation recognition [53.391095789289736]
畳み込み層を用いたディープニューラルネットワーク(DNN)は、通信における多くのタスクにおいて最先端である。
画像分類のような他の領域では、DNNは敵の摂動に弱いことが示されている。
最新モデルの堅牢性をテストするための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-27T19:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。