論文の概要: Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing
- arxiv url: http://arxiv.org/abs/2603.07302v1
- Date: Sat, 07 Mar 2026 18:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.216456
- Title: Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing
- Title(参考訳): 信頼できるサリエンシマップのためのトレーニング: 敵対的なトレーニングがフィーチャーマップの平滑化と出会う
- Authors: Dipkamal Bhusal, Md Tanvirul Alam, Nidhi Rastogi,
- Abstract要約: 中間層に微分可能なガウスフィルタを適用する軽量な特徴写像平滑化ブロックを提案する。
FMNIST, CIFAR-10, ImageNette全体では, 入力側安定性と出力側安定性を両立させながら, 対向訓練の空間的利点を保ちながら保存する。
- 参考スコア(独自算出の注目度): 4.014524824655106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-based saliency methods such as Vanilla Gradient (VG) and Integrated Gradients (IG) are widely used to explain image classifiers, yet the resulting maps are often noisy and unstable, limiting their usefulness in high-stakes settings. Most prior work improves explanations by modifying the attribution algorithm, leaving open how the training procedure shapes explanation quality. We take a training-centered view and first provide a curvature-based analysis linking attribution stability to how smoothly the input-gradient field varies locally. Guided by this connection, we study adversarial training and identify a consistent trade-off: it yields sparser and more input-stable saliency maps, but can degrade output-side stability, causing explanations to change even when predictions remain unchanged and logits vary only slightly. To mitigate this, we propose augmenting adversarial training with a lightweight feature-map smoothing block that applies a differentiable Gaussian filter in an intermediate layer. Across FMNIST, CIFAR-10, and ImageNette, our method preserves the sparsity benefits of adversarial training while improving both input-side stability and output-side stability. A human study with 65 participants further shows that smoothed adversarial saliency maps are perceived as more sufficient and trustworthy. Overall, our results demonstrate that explanation quality is critically shaped by training, and that simple smoothing with robust training provides a practical path toward saliency maps that are both sparse and stable.
- Abstract(参考訳): Vanilla Gradient (VG) やIntegrated Gradients (IG) といった勾配法は画像分類法を説明するために広く用いられているが、結果として得られるマップはうるさくて不安定であり、高い視点での有用性を制限している。
これまでのほとんどの作業は、属性アルゴリズムを変更して説明を改善し、トレーニング手順が説明の質をどのように形成するかをオープンにする。
学習中心の視点で、まず、帰属安定性と入力勾配場が局所的にいかに滑らかであるかをリンクする曲率に基づく解析を行う。
この接続によって、敵の訓練を研究し、一貫したトレードオフを識別する:スペーサーとより入力安定なサリエンシマップを生成するが、出力側安定性を低下させ、予測が変化せず、ロジットがわずかに変化しても説明が変わる。
これを軽減するために,中間層に微分可能なガウスフィルタを適用した軽量な特徴マップ平滑化ブロックによる対向トレーニングの強化を提案する。
FMNIST, CIFAR-10, ImageNette全体では, 入力側安定性と出力側安定性を両立させながら, 対向訓練の空間的利点を保ちながら保存する。
65人の被験者による人間による研究により、スムーズな対逆サリエンシマップはより十分で信頼性の高いものと見なされることが明らかとなった。
以上の結果から, 説明の質はトレーニングによって決定的に形成され, 頑健なトレーニングによる簡易な平滑化は, スパースかつ安定なサリエンシマップへの実践的な道筋となることが示唆された。
関連論文リスト
- Gaussian Smoothing in Saliency Maps: The Stability-Fidelity Trade-Off in Neural Network Interpretability [9.054540533394926]
サイレンシマップはニューラルネットワーク分類器の決定を解釈するために広く使われている。
標準地図はしばしば、トレーニングデータのランダム性やトレーニングプロセスの勾配性に非常に敏感であることが観察される。
本研究では,Smooth-Gradアルゴリズムにおけるガウス平滑化が,勾配図の安定性とトレーニングサンプルのランダム性に果たす役割について検討する。
論文 参考訳(メタデータ) (2024-11-06T13:26:57Z) - Unlearning-based Neural Interpretations [51.99182464831169]
静的関数を用いて定義される現在のベースラインは、バイアスがあり、脆弱であり、操作可能であることを示す。
UNIは、学習不可能で、偏りがなく、適応的なベースラインを計算し、入力を最も急な上昇の未学習方向に向けて摂動させることを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:39Z) - Confidence-aware Training of Smoothed Classifiers for Certified
Robustness [75.95332266383417]
我々は「ガウス雑音下での精度」を、入力に対する対角的ロバスト性の容易に計算可能なプロキシとして利用する。
実験の結果, 提案手法は, 最先端の訓練手法による信頼性向上を継続的に示すことがわかった。
論文 参考訳(メタデータ) (2022-12-18T03:57:12Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - On Saliency Maps and Adversarial Robustness [22.75851089729379]
サリエンシをベースとした適応学習(SAT)は、サリエンシマップを用いてモデルの敵の堅牢性を改善する。
よりきめ細やかで強力なサリエンシマップを使うことで、より堅牢なモデルがもたらされることを示す。
論文 参考訳(メタデータ) (2020-06-14T07:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。