論文の概要: A Vulnerability of Attribution Methods Using Pre-Softmax Scores
- arxiv url: http://arxiv.org/abs/2307.03305v3
- Date: Tue, 9 Apr 2024 03:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 20:36:08.066683
- Title: A Vulnerability of Attribution Methods Using Pre-Softmax Scores
- Title(参考訳): 事前ソフトマックススコアを用いた帰属法の脆弱性
- Authors: Miguel Lerma, Mirtha Lucas,
- Abstract要約: 本稿では、分類器として機能する畳み込みニューラルネットワークの出力を説明するために使用される帰属手法のカテゴリを含む脆弱性について論じる。
このタイプのネットワークは、入力の知覚できない摂動がモデルの出力を変える可能性のある敵攻撃に弱いことが知られている。
- 参考スコア(独自算出の注目度): 2.3020018305241337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We discuss a vulnerability involving a category of attribution methods used to provide explanations for the outputs of convolutional neural networks working as classifiers. It is known that this type of networks are vulnerable to adversarial attacks, in which imperceptible perturbations of the input may alter the outputs of the model. In contrast, here we focus on effects that small modifications in the model may cause on the attribution method without altering the model outputs.
- Abstract(参考訳): 本稿では、分類器として機能する畳み込みニューラルネットワークの出力を説明するために使用される帰属手法のカテゴリを含む脆弱性について論じる。
このタイプのネットワークは、入力の知覚できない摂動がモデルの出力を変える可能性のある敵攻撃に弱いことが知られている。
対照的に、モデル内の小さな修正がモデル出力を変更することなく帰属法に影響を及ぼす影響に焦点を当てる。
関連論文リスト
- Defense Against Adversarial Attacks using Convolutional Auto-Encoders [0.0]
敵攻撃は入力データを知覚不能な摂動で操作し、モデルがデータを誤分類したり、誤出力を発生させたりする。
この研究は、敵攻撃に対する標的モデルの堅牢性を高めることに基づいている。
論文 参考訳(メタデータ) (2023-12-06T14:29:16Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - A Fair Loss Function for Network Pruning [93.0013343535411]
本稿では, 刈り込み時のバイアスの抑制に使用できる簡易な改良型クロスエントロピー損失関数である, 性能重み付き損失関数を提案する。
偏見分類器を用いた顔分類と皮膚記述分類タスクの実験により,提案手法が簡便かつ効果的なツールであることを実証した。
論文 参考訳(メタデータ) (2022-11-18T15:17:28Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Query-Free Adversarial Transfer via Undertrained Surrogates [14.112444998191698]
本研究では,ブラックボックス環境における敵攻撃の有効性を改善するための新しい手法を提案する。
本稿では, この手法がアーキテクチャ全体にわたって良好に伝達し, 最先端の手法よりも広いマージンで性能を向上することを示す。
論文 参考訳(メタデータ) (2020-07-01T23:12:22Z) - Transferable Perturbations of Deep Feature Distributions [102.94094966908916]
本研究は,クラスワイドおよび層ワイドな特徴分布のモデリングと利用に基づく新たな敵攻撃を提案する。
我々は、未定義の画像ネットモデルに対して、最先端のブラックボックス転送に基づく攻撃結果を得る。
論文 参考訳(メタデータ) (2020-04-27T00:32:25Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。