論文の概要: Provable Robust Saliency-based Explanations
- arxiv url: http://arxiv.org/abs/2212.14106v3
- Date: Sat, 8 Jul 2023 17:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 18:54:27.355027
- Title: Provable Robust Saliency-based Explanations
- Title(参考訳): 確率ロバスト性に基づく説明
- Authors: Chao Chen, Chenghua Guo, Guixiang Ma, Ming Zeng, Xi Zhang, Sihong Xie
- Abstract要約: R2ETは, モデル精度を維持しつつ, ステルス攻撃下でのロバスト性が高いことを示す。
ネットワークアーキテクチャとデータモダリティの幅広い実験により、R2ETはモデル精度を維持しながら、ステルス攻撃下でのロバスト性が高い説明が得られることが示された。
- 参考スコア(独自算出の注目度): 16.217374556142484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust explanations of machine learning models are critical to establishing
human trust in the models. The top-$k$ intersection is widely used to evaluate
the robustness of explanations. However, most existing attacking and defense
strategies are based on $\ell_p$ norms, thus creating a mismatch between the
evaluation and optimization objectives. To this end, we define explanation
thickness for measuring top-$k$ salient features ranking stability, and design
the \textit{R2ET} algorithm based on a novel tractable surrogate to maximize
the thickness and stabilize the top salient features efficiently.
Theoretically, we prove a connection between R2ET and adversarial training;
using a novel multi-objective optimization formulation and a generalization
error bound, we further prove that the surrogate objective can improve both the
numerical and statistical stability of the explanations. Experiments with a
wide spectrum of network architectures and data modalities demonstrate that
R2ET attains higher explanation robustness under stealthy attacks while
retaining model accuracy.
- Abstract(参考訳): 機械学習モデルのロバストな説明は、モデルに対する人間の信頼を確立する上で重要である。
最高$kの交差点は説明の堅牢性を評価するために広く使われている。
しかし、既存の攻撃および防御戦略の多くは$\ell_p$ノルムに基づいているため、評価と最適化の目的のミスマッチが生じる。
この目的のために,1k$サルエント特徴のランク付け安定性を測定するための説明厚みを定義し,その厚みを最大化し,最上位サルエント特徴を効率的に安定化するために,新しいトラクタブルサーロゲートに基づく \textit{r2et} アルゴリズムを設計する。
理論的には、R2ETと対向訓練の関連性を証明し、新しい多目的最適化定式化と一般化誤差境界を用いて、代理目的が説明の数値的および統計的安定性の両方を改善することを証明した。
ネットワークアーキテクチャとデータモダリティの幅広い実験により、R2ETはモデル精度を維持しながら、ステルス攻撃下でのロバスト性が高い説明が得られることが示された。
関連論文リスト
- RbFT: Robust Fine-tuning for Retrieval-Augmented Generation against Retrieval Defects [12.5122702720856]
本稿では,検索欠陥に対する大規模言語モデルのレジリエンスを高めるために,Robust Fine-Tuning (RbFT)を提案する。
実験の結果,RbFTは多様な検索条件におけるRAGシステムのロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-30T14:15:09Z) - Stability Evaluation via Distributional Perturbation Analysis [28.379994938809133]
分布摂動に基づく安定性評価基準を提案する。
我々の安定性評価基準は,エフェダデータの腐敗とエフェサブ人口シフトの両方に対処できる。
実証実験により,現実のアプリケーションにまたがる安定性評価基準の実用性を検証する。
論文 参考訳(メタデータ) (2024-05-06T06:47:14Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - A Stability Analysis of Fine-Tuning a Pre-Trained Model [46.6761331971071]
訓練済みモデルの微調整は、最近のNLP研究で最も有望なパラダイムの1つである。
微調整は不安定な問題、すなわち同じ設定で同じモデルをチューニングすることで、性能が著しく異なる。
本稿では,2つの一般的な設定に焦点をあてたファインチューニングの理論的安定性解析を提案する。
論文 参考訳(メタデータ) (2023-01-24T05:11:17Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。
本研究では,長尾分布下における敵対的脆弱性と防御について検討する。
我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文 参考訳(メタデータ) (2021-04-06T17:53:08Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Reliable Post hoc Explanations: Modeling Uncertainty in Explainability [44.9824285459365]
ブラックボックスの説明は、高レベルの設定でモデルの信頼性を確立するために、ますます採用されている。
先行研究では、最先端の技術が生み出す説明は一貫性がなく不安定であり、その正確性や信頼性についての洞察はほとんど得られないことが示されている。
局所的な説明と関連する不確実性を生成するための新しいベイズ的枠組みを開発する。
論文 参考訳(メタデータ) (2020-08-11T22:52:21Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。