論文の概要: Unreasonable Effectiveness of Last Hidden Layer Activations
- arxiv url: http://arxiv.org/abs/2202.07342v1
- Date: Tue, 15 Feb 2022 12:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 13:55:06.955356
- Title: Unreasonable Effectiveness of Last Hidden Layer Activations
- Title(参考訳): 最後の隠れ層アクティベーションの 理不尽な効果
- Authors: Omer Faruk Tuna, Ferhat Ozgur Catak, M. Taner Eskil
- Abstract要約: 本研究では, 高い温度値を持つモデルの出力層で広く知られているアクティベーション関数を用いることで, 標的および標的外攻撃事例の勾配をゼロにする効果が示された。
CIFAR10データセットであるMNIST(Digit)に対するアプローチの有効性を実験的に検証した。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In standard Deep Neural Network (DNN) based classifiers, the general
convention is to omit the activation function in the last (output) layer and
directly apply the softmax function on the logits to get the probability scores
of each class. In this type of architectures, the loss value of the classifier
against any output class is directly proportional to the difference between the
final probability score and the label value of the associated class. Standard
White-box adversarial evasion attacks, whether targeted or untargeted, mainly
try to exploit the gradient of the model loss function to craft adversarial
samples and fool the model. In this study, we show both mathematically and
experimentally that using some widely known activation functions in the output
layer of the model with high temperature values has the effect of zeroing out
the gradients for both targeted and untargeted attack cases, preventing
attackers from exploiting the model's loss function to craft adversarial
samples. We've experimentally verified the efficacy of our approach on MNIST
(Digit), CIFAR10 datasets. Detailed experiments confirmed that our approach
substantially improves robustness against gradient-based targeted and
untargeted attack threats. And, we showed that the increased non-linearity at
the output layer has some additional benefits against some other attack methods
like Deepfool attack.
- Abstract(参考訳): 標準ディープニューラルネットワーク(DNN)ベースの分類器では、一般的な慣習は、最後の(出力)層の活性化関数を省略し、ロジットに直接ソフトマックス関数を適用して各クラスの確率スコアを取得することである。
このタイプのアーキテクチャでは、任意の出力クラスに対する分類器の損失値は、最終確率スコアと関連するクラスのラベル値との差に直接比例する。
標準的なホワイトボックスの敵対的回避攻撃は、ターゲットとターゲットのいずれであれ、主にモデル損失関数の勾配を利用して、敵のサンプルを作り、モデルを騙そうとする。
本研究では,高温度値のモデル出力層で広く知られているアクティベーション関数を用いることで,標的と標的の双方の攻撃事例の勾配をゼロにし,攻撃者がモデル損失関数を悪用して敵のサンプルを作成することを防ぐ効果を数学的および実験的に示す。
CIFAR10データセットであるMNIST(Digit)に対するアプローチの有効性を実験的に検証した。
詳細な実験により,本手法は,勾配に基づく標的攻撃および非標的攻撃に対するロバスト性が大幅に向上することを確認した。
また,出力層における非線形性の増加は,deepfool攻撃など他の攻撃方法にもいくつかの利点があることを示した。
関連論文リスト
- Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via
Latent Ensemble Attack [11.764601181046496]
生成モデルによって作成された悪意のある視覚コンテンツであるディープフェイクは、社会にますます有害な脅威をもたらす。
近年のディープフェイクの損傷を積極的に軽減するために, 逆方向の摂動を用いてディープフェイクモデルの出力を妨害する研究が進められている。
そこで本研究では,Latent Ensemble ATtack (LEAT) と呼ばれる簡易かつ効果的なディスラプション手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T07:00:37Z) - Boosting Adversarial Transferability via Fusing Logits of Top-1
Decomposed Feature [36.78292952798531]
本稿では,Singular Value Decomposition(SVD)に基づく特徴レベル攻撃法を提案する。
提案手法は,中間層特徴量より大きい特異値に付随する固有ベクトルがより優れた一般化と注意特性を示すという発見に着想を得たものである。
論文 参考訳(メタデータ) (2023-05-02T12:27:44Z) - Towards Reasonable Budget Allocation in Untargeted Graph Structure
Attacks via Gradient Debias [50.628150015907565]
クロスエントロピー損失関数は、分類タスクにおける摂動スキームを評価するために用いられる。
従来の手法ではノードレベルの分類モデルを攻撃する攻撃対象として負のクロスエントロピー損失を用いる。
本稿では、予算配分の観点から、これまでの不合理な攻撃目標について論じる。
論文 参考訳(メタデータ) (2023-03-29T13:02:02Z) - Not All Poisons are Created Equal: Robust Training against Data
Poisoning [15.761683760167777]
データ中毒は、トレーニングデータに悪意ある工芸品のサンプルを注入することで、テスト時間対象のサンプルを誤分類する。
各種データ中毒攻撃の成功率を大幅に低減する効率的な防御機構を提案する。
論文 参考訳(メタデータ) (2022-10-18T08:19:41Z) - Order-Disorder: Imitation Adversarial Attacks for Black-box Neural
Ranking Models [48.93128542994217]
ブラックボックスニューラルパスランキングモデルに対する模倣逆攻撃を提案する。
重要クエリ/候補を列挙することで,対象経路ランキングモデルを透明化し,模倣することができることを示す。
また,一対の目的関数によって強化された革新的な勾配に基づく攻撃手法を提案し,敵の引き金を発生させる。
論文 参考訳(メタデータ) (2022-09-14T09:10:07Z) - RamBoAttack: A Robust Query Efficient Deep Neural Network Decision
Exploit [9.93052896330371]
本研究では,局所的な最小値の侵入を回避し,ノイズ勾配からのミスダイレクトを回避できる,堅牢なクエリ効率の高い攻撃法を開発した。
RamBoAttackは、敵クラスとターゲットクラスで利用可能な異なるサンプルインプットに対して、より堅牢である。
論文 参考訳(メタデータ) (2021-12-10T01:25:24Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Combating Adversaries with Anti-Adversaries [118.70141983415445]
特に、我々の層は、逆の層とは反対の方向に入力摂動を生成します。
我々は,我々の階層と名目および頑健に訓練されたモデルを組み合わせることで,我々のアプローチの有効性を検証する。
我々の対向層は、クリーンな精度でコストを伴わずにモデルロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2021-03-26T09:36:59Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。