論文の概要: Provable Robust Saliency-based Explanations
- arxiv url: http://arxiv.org/abs/2212.14106v3
- Date: Sat, 8 Jul 2023 17:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 18:54:27.355027
- Title: Provable Robust Saliency-based Explanations
- Title(参考訳): 確率ロバスト性に基づく説明
- Authors: Chao Chen, Chenghua Guo, Guixiang Ma, Ming Zeng, Xi Zhang, Sihong Xie
- Abstract要約: R2ETは, モデル精度を維持しつつ, ステルス攻撃下でのロバスト性が高いことを示す。
ネットワークアーキテクチャとデータモダリティの幅広い実験により、R2ETはモデル精度を維持しながら、ステルス攻撃下でのロバスト性が高い説明が得られることが示された。
- 参考スコア(独自算出の注目度): 16.217374556142484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust explanations of machine learning models are critical to establishing
human trust in the models. The top-$k$ intersection is widely used to evaluate
the robustness of explanations. However, most existing attacking and defense
strategies are based on $\ell_p$ norms, thus creating a mismatch between the
evaluation and optimization objectives. To this end, we define explanation
thickness for measuring top-$k$ salient features ranking stability, and design
the \textit{R2ET} algorithm based on a novel tractable surrogate to maximize
the thickness and stabilize the top salient features efficiently.
Theoretically, we prove a connection between R2ET and adversarial training;
using a novel multi-objective optimization formulation and a generalization
error bound, we further prove that the surrogate objective can improve both the
numerical and statistical stability of the explanations. Experiments with a
wide spectrum of network architectures and data modalities demonstrate that
R2ET attains higher explanation robustness under stealthy attacks while
retaining model accuracy.
- Abstract(参考訳): 機械学習モデルのロバストな説明は、モデルに対する人間の信頼を確立する上で重要である。
最高$kの交差点は説明の堅牢性を評価するために広く使われている。
しかし、既存の攻撃および防御戦略の多くは$\ell_p$ノルムに基づいているため、評価と最適化の目的のミスマッチが生じる。
この目的のために,1k$サルエント特徴のランク付け安定性を測定するための説明厚みを定義し,その厚みを最大化し,最上位サルエント特徴を効率的に安定化するために,新しいトラクタブルサーロゲートに基づく \textit{r2et} アルゴリズムを設計する。
理論的には、R2ETと対向訓練の関連性を証明し、新しい多目的最適化定式化と一般化誤差境界を用いて、代理目的が説明の数値的および統計的安定性の両方を改善することを証明した。
ネットワークアーキテクチャとデータモダリティの幅広い実験により、R2ETはモデル精度を維持しながら、ステルス攻撃下でのロバスト性が高い説明が得られることが示された。
関連論文リスト
- Is Smoothness the Key to Robustness? A Comparison of Attention and Convolution Models Using a Novel Metric [0.0]
既存の堅牢性評価アプローチは理論的な一般性を欠いているか、経験的評価に大きく依存していることが多い。
本研究では,トポロジカルデータ解析とリプシッツ連続性を橋渡ししてロバスト性評価を行う層解析に基づくトポリップを提案する。
論文 参考訳(メタデータ) (2024-10-23T07:44:14Z) - Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Robust Feature Inference: A Test-time Defense Strategy using Spectral Projections [12.807619042576018]
我々はロバスト特徴推論(RFI)と呼ばれる新しいテスト時間防衛戦略を提案する。
RFIは、追加のテスト時間計算なしで既存の(ロバストな)トレーニング手順と簡単に統合できる。
RFIは、適応攻撃や転送攻撃によるロバスト性を継続的に改善することを示す。
論文 参考訳(メタデータ) (2023-07-21T16:18:58Z) - Robust Ranking Explanations [16.217374556142484]
敵対的攻撃、特により脆弱な勾配に基づく説明に対する攻撃に対して、最上位の健全な特徴を堅牢にすることは重要である。
$ell_p$-normsを使った既存の防御対策は、より弱い保護力を持つ。
安定度を推定するための記述厚みを定義し, トラクタブルなサロゲート境界を導出してtextitR2ET アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-07-08T18:05:41Z) - Double Pessimism is Provably Efficient for Distributionally Robust
Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage [15.858892479232656]
頑健なオフライン強化学習(ロバストオフラインRL)について検討する。
我々は、Douubly Pessimistic Model-based Policy Optimization(P2MPO$)と呼ばれる汎用アルゴリズムフレームワークを提案する。
P2MPO$は$tildemathcalO(n-1/2)$コンバーゼンスレートで、$n$はデータセットサイズである。
論文 参考訳(メタデータ) (2023-05-16T17:58:05Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - A general framework for defining and optimizing robustness [74.67016173858497]
分類器の様々な種類の堅牢性を定義するための厳密でフレキシブルなフレームワークを提案する。
我々の概念は、分類器の堅牢性は正確性とは無関係な性質と考えるべきであるという仮定に基づいている。
我々は,任意の分類モデルに適用可能な,非常に一般的なロバスト性フレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-19T13:24:20Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。