論文の概要: Robust Ranking Explanations
- arxiv url: http://arxiv.org/abs/2212.14106v1
- Date: Wed, 28 Dec 2022 22:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:28:35.802756
- Title: Robust Ranking Explanations
- Title(参考訳): ロバストランキング解説
- Authors: Chao Chen, Chenghua Guo, Guixiang Ma, Xi Zhang, Sihong Xie
- Abstract要約: そこで我々は,より適切な説明頑健度指標として,ランキングの厚みについて提案する。
計算可能性を維持しながらランキングベースの攻撃を緩和するため、厚みのサロゲート境界を導出する。
我々は,多目的手法を用いて勾配に基づく攻撃の収束を解析し,その説明ロバスト性が厚み測定によって測定可能であることを確認する。
- 参考スコア(独自算出の注目度): 16.522777117570552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based explanation is the cornerstone of explainable deep networks,
but it has been shown to be vulnerable to adversarial attacks. However,
existing works measure the explanation robustness based on $\ell_p$-norm, which
can be counter-intuitive to humans, who only pay attention to the top few
salient features. We propose explanation ranking thickness as a more suitable
explanation robustness metric. We then present a new practical adversarial
attacking goal for manipulating explanation rankings. To mitigate the
ranking-based attacks while maintaining computational feasibility, we derive
surrogate bounds of the thickness that involve expensive sampling and
integration. We use a multi-objective approach to analyze the convergence of a
gradient-based attack to confirm that the explanation robustness can be
measured by the thickness metric. We conduct experiments on various network
architectures and diverse datasets to prove the superiority of the proposed
methods, while the widely accepted Hessian-based curvature smoothing approaches
are not as robust as our method.
- Abstract(参考訳): グラディエントに基づく説明は説明可能なディープネットワークの基礎であるが、敵の攻撃に弱いことが示されている。
しかし、既存の研究は、人間にとって直感に反しうる$\ell_p$-normに基づいて、説明の堅牢性を測定する。
そこで我々は,より適切な説明頑健度指標として,ランキングの厚みについて提案する。
次に,説明ランキングを操作するための新たな攻撃目標を提案する。
計算可能性を維持しながらランキングベースの攻撃を緩和するため、高価なサンプリングと統合を伴う厚さの境界線を導出する。
グラデーションベース攻撃の収束を多目的法を用いて解析し,説明ロバスト性が厚みメトリックで測定可能であることを確認する。
提案手法の優越性を証明するために,ネットワークアーキテクチャや多種多様なデータセットについて実験を行ったが,広く受け入れられているヘッセン型曲率平滑化手法は,本手法ほど頑健ではない。
関連論文リスト
- Is Smoothness the Key to Robustness? A Comparison of Attention and Convolution Models Using a Novel Metric [0.0]
既存の堅牢性評価アプローチは理論的な一般性を欠いているか、経験的評価に大きく依存していることが多い。
本研究では,トポロジカルデータ解析とリプシッツ連続性を橋渡ししてロバスト性評価を行う層解析に基づくトポリップを提案する。
論文 参考訳(メタデータ) (2024-10-23T07:44:14Z) - Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Robust Feature Inference: A Test-time Defense Strategy using Spectral Projections [12.807619042576018]
我々はロバスト特徴推論(RFI)と呼ばれる新しいテスト時間防衛戦略を提案する。
RFIは、追加のテスト時間計算なしで既存の(ロバストな)トレーニング手順と簡単に統合できる。
RFIは、適応攻撃や転送攻撃によるロバスト性を継続的に改善することを示す。
論文 参考訳(メタデータ) (2023-07-21T16:18:58Z) - Robust Ranking Explanations [16.217374556142484]
敵対的攻撃、特により脆弱な勾配に基づく説明に対する攻撃に対して、最上位の健全な特徴を堅牢にすることは重要である。
$ell_p$-normsを使った既存の防御対策は、より弱い保護力を持つ。
安定度を推定するための記述厚みを定義し, トラクタブルなサロゲート境界を導出してtextitR2ET アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-07-08T18:05:41Z) - Double Pessimism is Provably Efficient for Distributionally Robust
Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage [15.858892479232656]
頑健なオフライン強化学習(ロバストオフラインRL)について検討する。
我々は、Douubly Pessimistic Model-based Policy Optimization(P2MPO$)と呼ばれる汎用アルゴリズムフレームワークを提案する。
P2MPO$は$tildemathcalO(n-1/2)$コンバーゼンスレートで、$n$はデータセットサイズである。
論文 参考訳(メタデータ) (2023-05-16T17:58:05Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - A general framework for defining and optimizing robustness [74.67016173858497]
分類器の様々な種類の堅牢性を定義するための厳密でフレキシブルなフレームワークを提案する。
我々の概念は、分類器の堅牢性は正確性とは無関係な性質と考えるべきであるという仮定に基づいている。
我々は,任意の分類モデルに適用可能な,非常に一般的なロバスト性フレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-19T13:24:20Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。