論文の概要: Exploring the Interplay of Interpretability and Robustness in Deep Neural Networks: A Saliency-guided Approach
- arxiv url: http://arxiv.org/abs/2405.06278v1
- Date: Fri, 10 May 2024 07:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 16:27:43.226743
- Title: Exploring the Interplay of Interpretability and Robustness in Deep Neural Networks: A Saliency-guided Approach
- Title(参考訳): 深部ニューラルネットワークにおける解釈可能性とロバスト性の相互作用を探る:正当性誘導的アプローチ
- Authors: Amira Guesmi, Nishant Suresh Aswani, Muhammad Shafique,
- Abstract要約: 敵対的攻撃は、ディープラーニングモデルを安全クリティカルなアプリケーションにデプロイする上で大きな課題となる。
モデルの堅牢性を維持しながら解釈可能性を確保することは、これらのモデルの信頼と理解を促進する上で不可欠である。
本研究では,Saliency-Guided Trainingがモデルロバスト性に及ぼす影響について検討した。
- 参考スコア(独自算出の注目度): 3.962831477787584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial attacks pose a significant challenge to deploying deep learning models in safety-critical applications. Maintaining model robustness while ensuring interpretability is vital for fostering trust and comprehension in these models. This study investigates the impact of Saliency-guided Training (SGT) on model robustness, a technique aimed at improving the clarity of saliency maps to deepen understanding of the model's decision-making process. Experiments were conducted on standard benchmark datasets using various deep learning architectures trained with and without SGT. Findings demonstrate that SGT enhances both model robustness and interpretability. Additionally, we propose a novel approach combining SGT with standard adversarial training to achieve even greater robustness while preserving saliency map quality. Our strategy is grounded in the assumption that preserving salient features crucial for correctly classifying adversarial examples enhances model robustness, while masking non-relevant features improves interpretability. Our technique yields significant gains, achieving a 35\% and 20\% improvement in robustness against PGD attack with noise magnitudes of $0.2$ and $0.02$ for the MNIST and CIFAR-10 datasets, respectively, while producing high-quality saliency maps.
- Abstract(参考訳): 敵対的攻撃は、ディープラーニングモデルを安全クリティカルなアプリケーションにデプロイする上で大きな課題となる。
モデルの堅牢性を維持しながら解釈可能性を確保することは、これらのモデルの信頼と理解を促進する上で不可欠である。
本研究では,SGT(Saliency-Guided Training)がモデルロバスト性に及ぼす影響について検討した。
SGTでトレーニングされたさまざまなディープラーニングアーキテクチャを用いて、標準ベンチマークデータセットで実験を行った。
また,SGTと標準対向訓練を組み合わせた新たな手法を提案する。
我々の戦略は、正反対の例を正しく分類するのに不可欠な健全な特徴の保存がモデルの堅牢性を高める一方、非関連特徴のマスキングは解釈可能性を向上させるという仮定に基づいている。
MNIST と CIFAR-10 データセットでそれぞれ0.2$ と0.02$ のノイズ等級を持つ PGD 攻撃に対する強靭性を 35 % と 20 % 改善し,高品質なサリエンシマップを作成した。
関連論文リスト
- UDUC: An Uncertainty-driven Approach for Learning-based Robust Control [9.76247882232402]
確率的アンサンブル(PE)モデルは、システムの力学をモデル化するための有望なアプローチを提供する。
PEモデルはモード崩壊の影響を受けやすいため、トレーニングセットと若干異なる環境に直面した場合、非破壊的な制御が生じる。
我々は、PEモデルをトレーニングするための代替目的として、$textbfu$ncertainty-$textbfd$riven rob$textbfu$st $textbfc$ontrol (UDUC)損失を導入する。
論文 参考訳(メタデータ) (2024-05-04T07:48:59Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Exploring the Adversarial Frontier: Quantifying Robustness via
Adversarial Hypervolume [18.4516572499628]
本稿では,様々な摂動強度に対して総合的に深層学習モデルの頑健性を評価するための,対向超体積と呼ばれる新しい計量法を提案する。
我々は,様々な摂動強度の対向的堅牢性を均一に向上する新しいトレーニングアルゴリズムを採用する。
本研究はロバスト性の新しい尺度に寄与し、敵の脅威に対するベンチマーク評価と、現在および将来の防御モデルのレジリエンスの基準を確立する。
論文 参考訳(メタデータ) (2024-03-08T07:03:18Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Measure and Improve Robustness in NLP Models: A Survey [23.515869499536237]
堅牢性は視覚やNLPなどのアプリケーションで別々に研究されており、様々な定義、評価、緩和戦略が研究の複数のラインで行われている。
まず、ロバスト性の定義を複数結合し、その後、ロバスト性障害を特定し、モデルのロバスト性を評価する様々な作業ラインを統一します。
我々は、NLPモデルの堅牢性を効果的に改善する方法をより体系的な視点で、データ駆動型、モデル駆動型、インダクティブプライオリベースである緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T18:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。