論文の概要: Interpreting Adversarial Attacks and Defences using Architectures with Enhanced Interpretability
- arxiv url: http://arxiv.org/abs/2502.15017v1
- Date: Thu, 20 Feb 2025 20:12:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:18.128959
- Title: Interpreting Adversarial Attacks and Defences using Architectures with Enhanced Interpretability
- Title(参考訳): 高度な解釈可能性を持つアーキテクチャによる敵攻撃と防御の解釈
- Authors: Akshay G Rao, Chandrashekhar Lakshminarayanan, Arun Rajkumar,
- Abstract要約: この研究は、通常のディープ・ネットワーク・アーキテクチャよりも優れた解釈能力を持つディープ・リニア・ゲイト・ネットワーク(DLGN)というネットワーク・アーキテクチャに便乗している。
我々は、PGD逆行訓練を用いて訓練された頑健なモデルを解釈し、それらを標準訓練と比較する。
PGD-ATとSTD-TRモデルの主成分に類似した超平面についての知見を明らかにし, PGD-ATの超平面はデータポイントから遠く離れている。
- 参考スコア(独自算出の注目度): 4.964101884577697
- License:
- Abstract: Adversarial attacks in deep learning represent a significant threat to the integrity and reliability of machine learning models. Adversarial training has been a popular defence technique against these adversarial attacks. In this work, we capitalize on a network architecture, namely Deep Linearly Gated Networks (DLGN), which has better interpretation capabilities than regular deep network architectures. Using this architecture, we interpret robust models trained using PGD adversarial training and compare them with standard training. Feature networks in DLGN act as feature extractors, making them the only medium through which an adversary can attack the model. We analyze the feature network of DLGN with fully connected layers with respect to properties like alignment of the hyperplanes, hyperplane relation with PCA, and sub-network overlap among classes and compare these properties between robust and standard models. We also consider this architecture having CNN layers wherein we qualitatively (using visualizations) and quantitatively contrast gating patterns between robust and standard models. We uncover insights into hyperplanes resembling principal components in PGD-AT and STD-TR models, with PGD-AT hyperplanes aligned farther from the data points. We use path activity analysis to show that PGD-AT models create diverse, non-overlapping active subnetworks across classes, preventing attack-induced gating overlaps. Our visualization ideas show the nature of representations learnt by PGD-AT and STD-TR models.
- Abstract(参考訳): ディープラーニングにおける敵対的攻撃は、機械学習モデルの完全性と信頼性に対する重大な脅威である。
敵の訓練は、これらの敵の攻撃に対する一般的な防御技術である。
本研究では,通常のディープ・ネットワーク・アーキテクチャよりも優れた解釈能力を持つディープ・リニア・ゲイト・ネットワーク(DLGN)というネットワーク・アーキテクチャを利用する。
このアーキテクチャを用いて、PGD対逆訓練を用いて訓練された頑健なモデルを解釈し、それらを標準訓練と比較する。
DLGNの特徴ネットワークは特徴抽出器として機能し、敵がモデルに攻撃できる唯一の媒体となる。
我々は、超平面のアライメント、PCAとの超平面関係、およびサブネットワークのオーバーラップといった特性について、DLGNの特徴ネットワークを網羅的に解析し、これらの特性をロバストモデルと標準モデルで比較する。
また、このアーキテクチャは、(視覚化を使って)定性的に、頑健なモデルと標準モデルのゲーティングパターンを定量的に対比するCNN層を持つと考えている。
PGD-ATとSTD-TRモデルの主成分に類似した超平面についての知見を明らかにし, PGD-ATの超平面はデータポイントから遠く離れている。
我々は、PGD-ATモデルがクラス間で多様で重複しないアクティブサブネットを作成できることを示すために、パスアクティビティ分析を用いる。
我々の可視化アイデアはPGD-ATモデルとSTD-TRモデルによって学習された表現の性質を示している。
関連論文リスト
- An Attentive Graph Agent for Topology-Adaptive Cyber Defence [1.0812794909131096]
我々は,ネットワーク状態を有向グラフとして符号化するCyber Operations Research Gym(CybORG)環境のカスタムバージョンを開発する。
我々は、ノード、エッジ、グローバル機能を処理するために、グラフ注意ネットワーク(GAT)アーキテクチャを使用し、その出力を強化学習におけるポリシー勾配手法と互換性に適応させる。
我々は,シミュレーション中に予期せぬ接続が発生した場合でも,低レベル指向グラフ観測を用いてGAT防御ポリシーを訓練できることを実証した。
論文 参考訳(メタデータ) (2025-01-24T18:22:37Z) - MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning [1.534667887016089]
ディープニューラルネットワーク(DNN)は、わずかに敵対的な摂動に対して脆弱である。
トレーニング中の強力な特徴表現学習は、元のモデルの堅牢性を大幅に向上させることができることを示す。
本稿では,多目的特徴表現学習手法であるMORELを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:05:03Z) - Stealing the Invisible: Unveiling Pre-Trained CNN Models through
Adversarial Examples and Timing Side-Channels [14.222432788661914]
本稿では,逆画像の分類パターンをモデルから盗む手段として利用することの観察に基づくアプローチを提案する。
提案手法は,様々なモデルにまたがる様々な逆画像の誤分類を利用して,いくつかの有名な畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)アーキテクチャを指紋化する。
論文 参考訳(メタデータ) (2024-02-19T08:47:20Z) - Interpretable Computer Vision Models through Adversarial Training:
Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。
標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文 参考訳(メタデータ) (2023-07-04T13:51:55Z) - Common Knowledge Learning for Generating Transferable Adversarial
Examples [60.1287733223249]
本稿では,代用(ソース)モデルにより敵のサンプルを生成するブラックボックス攻撃の重要タイプに着目した。
既存の手法では、ソースモデルとターゲットモデルが異なるタイプのDNNアーキテクチャのものである場合、不満足な逆転が生じる傾向にある。
本稿では,より優れたネットワーク重みを学習し,敵対的な例を生成するための共通知識学習(CKL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-01T09:07:12Z) - Unveiling the potential of Graph Neural Networks for robust Intrusion
Detection [2.21481607673149]
本稿では,グラフとして構造化された攻撃の流れパターンを学習するための新しいグラフニューラルネットワーク(GNN)モデルを提案する。
我々のモデルは従来の実験と同等の精度を維持することができる一方、最先端のML技術は敵攻撃下で50%の精度(F1スコア)を低下させる。
論文 参考訳(メタデータ) (2021-07-30T16:56:39Z) - Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文 参考訳(メタデータ) (2020-09-05T06:00:28Z) - Orthogonal Deep Models As Defense Against Black-Box Attacks [71.23669614195195]
攻撃者が標的モデルに類似したモデルを用いて攻撃を発生させるブラックボックス設定における深層モデル固有の弱点について検討する。
本稿では,深部モデルの内部表現を他のモデルに直交させる新しい勾配正規化手法を提案する。
様々な大規模モデルにおいて,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-06-26T08:29:05Z) - Graph Backdoor [53.70971502299977]
GTAはグラフニューラルネットワーク(GNN)に対する最初のバックドア攻撃である。
GTAは、トポロジカル構造と記述的特徴の両方を含む特定の部分グラフとしてトリガーを定義する。
トランスダクティブ(ノード分類など)とインダクティブ(グラフ分類など)の両方のタスクに対してインスタンス化することができる。
論文 参考訳(メタデータ) (2020-06-21T19:45:30Z) - Rethinking Clustering for Robustness [56.14672993686335]
ClusTRは、ロバストモデルを学ぶためのクラスタリングベースの、対向のないトレーニングフレームワークである。
textitClusTRは、強いPGD攻撃の下で、敵に訓練されたネットワークを最大4%上回ります。
論文 参考訳(メタデータ) (2020-06-13T16:55:51Z) - Boosting Adversarial Training with Hypersphere Embedding [53.75693100495097]
敵対的訓練は、ディープラーニングモデルに対する敵対的攻撃に対する最も効果的な防御の1つである。
本研究では,超球埋め込み機構をATプロシージャに組み込むことを提唱する。
我々は,CIFAR-10 と ImageNet データセットに対する幅広い敵対攻撃の下で本手法を検証した。
論文 参考訳(メタデータ) (2020-02-20T08:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。