論文の概要: Explanation-Guided Adversarial Training for Robust and Interpretable Models
- arxiv url: http://arxiv.org/abs/2603.01938v1
- Date: Mon, 02 Mar 2026 14:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.917608
- Title: Explanation-Guided Adversarial Training for Robust and Interpretable Models
- Title(参考訳): ロバストモデルと解釈モデルのための説明誘導型逆学習
- Authors: Chao Chen, Yanhui Chen, Shanshan Lin, Dongsheng Hong, Shu Wu, Xiangwen Liao, Chuanyi Liu,
- Abstract要約: 本稿では,予測性能,ロバスト性,説明品質を向上させるために,EGAT(Explaination-Guided Adversarial Training)を提案する。
EGATは、モデルに説明に基づく制約を課しながら、その場で敵の例を生成する。
EGATは、クリーンな精度と敵対的な精度+37%で競争ベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 23.590037545621755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have achieved remarkable performance in many tasks, yet they often behave as opaque black boxes. Explanation-guided learning (EGL) methods steer DNNs using human-provided explanations or supervision on model attributions. These approaches improve interpretability but typically assume benign inputs and incur heavy annotation costs. In contrast, both predictions and saliency maps of DNNs could dramatically alter facing imperceptible perturbations or unseen patterns. Adversarial training (AT) can substantially improve robustness, but it does not guarantee that model decisions rely on semantically meaningful features. In response, we propose Explanation-Guided Adversarial Training (EGAT), a unified framework that integrates the strength of AT and EGL to simultaneously improve prediction performance, robustness, and explanation quality. EGAT generates adversarial examples on the fly while imposing explanation-based constraints on the model. By jointly optimizing classification performance, adversarial robustness, and attributional stability, EGAT is not only more resistant to unexpected cases, including adversarial attacks and out-of-distribution (OOD) scenarios, but also offer human-interpretable justifications for the decisions. We further formalize EGAT within the Probably Approximately Correct learning framework, demonstrating theoretically that it yields more stable predictions under unexpected situations compared to standard AT. Empirical evaluations on OOD benchmark datasets show that EGAT consistently outperforms competitive baselines in both clean accuracy and adversarial accuracy +37% while producing more semantically meaningful explanations, and requiring only a limited increase +16% in training time.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は多くのタスクで顕著なパフォーマンスを達成したが、しばしば不透明なブラックボックスとして振る舞う。
説明誘導学習 (Explanation-Guided Learning, EGL) は、人為的な説明やモデル属性の監督を用いてDNNを操る手法である。
これらのアプローチは解釈可能性を改善するが、通常は良質な入力を仮定し、重いアノテーションコストを発生させる。
対照的に、DNNの予測と正当性マップは、認識不能な摂動や目に見えないパターンを劇的に変える可能性がある。
敵対的トレーニング(AT)はロバスト性を大幅に改善するが、モデル決定が意味論的に意味のある機能に依存していることを保証するものではない。
そこで本研究では,AT と EGL の強みを統合し,予測性能,堅牢性,説明品質を同時に向上する統合フレームワークである Explanation-Guided Adversarial Training (EGAT) を提案する。
EGATは、モデルに説明に基づく制約を課しながら、その場で敵の例を生成する。
EGATは、分類性能、敵の堅牢性、帰属安定性を共同で最適化することにより、敵の攻撃やアウト・オブ・ディストリビューション(OOD)シナリオを含む予期せぬケースに抵抗するだけでなく、決定に対する人間解釈可能な正当性も提供する。
さらに,確率的近似学習フレームワーク内でEGATを定式化し,予想外の状況下での予測が標準ATよりも安定であることを示す。
OODベンチマークデータセットの実証的な評価によると、EGATはクリーンな正確さと敵の精度+37%で競争ベースラインを一貫して上回り、セマンティックに意味のある説明を生み出し、トレーニング時間にわずかに+16%の増加しか必要としていない。
関連論文リスト
- Spiking Graph Predictive Coding for Reliable OOD Generalization [17.74194220543056]
我々は、信頼性の高いOOD一般化のための不確実性を考慮したプラグイングラフ学習モジュールであるSpIking GrapH predicTive coding (SIGHT)を紹介した。
SIGHTはスパイキンググラフ状態に対して反復的なエラー駆動補正を行い、モデルの内部ミスマッチ信号を公開することができる。
論文 参考訳(メタデータ) (2026-02-22T23:58:47Z) - Explainability-Guided Defense: Attribution-Aware Model Refinement Against Adversarial Data Attacks [6.573058520271728]
私たちは、トレーニング中に直接活用できる、解釈可能性と堅牢性との関連性を特定します。
本稿では,局所解釈可能なモデル非依存表現をアクティブな訓練信号に変換する属性誘導型改良フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-02T19:36:03Z) - Evaluating Large Language Models for Phishing Detection, Self-Consistency, Faithfulness, and Explainability [0.0]
大規模言語モデル(LLM)は、ドメイン固有のフィッシング分類タスクを改善するための有望な方向性と可能性を示している。
LLMはフィッシングメールを正確に分類するだけでなく、予測に確実に適合し、内部に一貫性のある説明を生成することができるのか?
BERT、Llamaモデル、Wizardなど、微調整されたトランスフォーマーベースのモデルを使って、ドメインの関連性を改善し、特定の区別をフィッシングするように調整しています。
論文 参考訳(メタデータ) (2025-06-16T17:54:28Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Improved and Interpretable Defense to Transferred Adversarial Examples
by Jacobian Norm with Selective Input Gradient Regularization [31.516568778193157]
ディープニューラルネットワーク(DNN)の堅牢性を改善するために、AT(Adversarial Training)がよく用いられる。
本研究では,ジャコビアンノルムと選択的入力勾配正規化(J-SIGR)に基づくアプローチを提案する。
実験により、提案したJ-SIGRは、転送された敵攻撃に対するロバスト性を向上し、ニューラルネットワークからの予測が容易に解釈できることが示されている。
論文 参考訳(メタデータ) (2022-07-09T01:06:41Z) - Latent Boundary-guided Adversarial Training [61.43040235982727]
モデルトレーニングに敵の例を注入する最も効果的な戦略は、敵のトレーニングであることが証明されている。
本稿では, LAtent bounDary-guided aDvErsarial tRaining という新たな逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:40:55Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Unifying Model Explainability and Robustness for Joint Text
Classification and Rationale Extraction [11.878012909876713]
そこで我々は,AT-BMCという共同分類と合理的抽出モデルを提案する。
混合逆行訓練(AT)は、モデルの堅牢性を改善するために離散的および埋め込み空間における様々な摂動を利用するように設計されており、境界マッチング制約(BMC)は境界情報のガイダンスによりより正確に有理性を見つけるのに役立つ。
ベンチマークデータセットのパフォーマンスは、提案されたAT-BMCが、大きなマージンによる分類と合理性抽出の両方のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-20T09:48:32Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Adversarial Robustness on In- and Out-Distribution Improves
Explainability [109.68938066821246]
RATIOは、Adversarial Training on In- and Out-distriionを通じて、堅牢性のためのトレーニング手順である。
RATIOはCIFAR10で最先端の$l$-adrialを実現し、よりクリーンな精度を維持している。
論文 参考訳(メタデータ) (2020-03-20T18:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。