論文の概要: Robust Ranking Explanations
- arxiv url: http://arxiv.org/abs/2212.14106v1
- Date: Wed, 28 Dec 2022 22:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:28:35.802756
- Title: Robust Ranking Explanations
- Title(参考訳): ロバストランキング解説
- Authors: Chao Chen, Chenghua Guo, Guixiang Ma, Xi Zhang, Sihong Xie
- Abstract要約: そこで我々は,より適切な説明頑健度指標として,ランキングの厚みについて提案する。
計算可能性を維持しながらランキングベースの攻撃を緩和するため、厚みのサロゲート境界を導出する。
我々は,多目的手法を用いて勾配に基づく攻撃の収束を解析し,その説明ロバスト性が厚み測定によって測定可能であることを確認する。
- 参考スコア(独自算出の注目度): 16.522777117570552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based explanation is the cornerstone of explainable deep networks,
but it has been shown to be vulnerable to adversarial attacks. However,
existing works measure the explanation robustness based on $\ell_p$-norm, which
can be counter-intuitive to humans, who only pay attention to the top few
salient features. We propose explanation ranking thickness as a more suitable
explanation robustness metric. We then present a new practical adversarial
attacking goal for manipulating explanation rankings. To mitigate the
ranking-based attacks while maintaining computational feasibility, we derive
surrogate bounds of the thickness that involve expensive sampling and
integration. We use a multi-objective approach to analyze the convergence of a
gradient-based attack to confirm that the explanation robustness can be
measured by the thickness metric. We conduct experiments on various network
architectures and diverse datasets to prove the superiority of the proposed
methods, while the widely accepted Hessian-based curvature smoothing approaches
are not as robust as our method.
- Abstract(参考訳): グラディエントに基づく説明は説明可能なディープネットワークの基礎であるが、敵の攻撃に弱いことが示されている。
しかし、既存の研究は、人間にとって直感に反しうる$\ell_p$-normに基づいて、説明の堅牢性を測定する。
そこで我々は,より適切な説明頑健度指標として,ランキングの厚みについて提案する。
次に,説明ランキングを操作するための新たな攻撃目標を提案する。
計算可能性を維持しながらランキングベースの攻撃を緩和するため、高価なサンプリングと統合を伴う厚さの境界線を導出する。
グラデーションベース攻撃の収束を多目的法を用いて解析し,説明ロバスト性が厚みメトリックで測定可能であることを確認する。
提案手法の優越性を証明するために,ネットワークアーキテクチャや多種多様なデータセットについて実験を行ったが,広く受け入れられているヘッセン型曲率平滑化手法は,本手法ほど頑健ではない。
関連論文リスト
- RbFT: Robust Fine-tuning for Retrieval-Augmented Generation against Retrieval Defects [12.5122702720856]
本稿では,検索欠陥に対する大規模言語モデルのレジリエンスを高めるために,Robust Fine-Tuning (RbFT)を提案する。
実験の結果,RbFTは多様な検索条件におけるRAGシステムのロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-30T14:15:09Z) - Stability Evaluation via Distributional Perturbation Analysis [28.379994938809133]
分布摂動に基づく安定性評価基準を提案する。
我々の安定性評価基準は,エフェダデータの腐敗とエフェサブ人口シフトの両方に対処できる。
実証実験により,現実のアプリケーションにまたがる安定性評価基準の実用性を検証する。
論文 参考訳(メタデータ) (2024-05-06T06:47:14Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - A Stability Analysis of Fine-Tuning a Pre-Trained Model [46.6761331971071]
訓練済みモデルの微調整は、最近のNLP研究で最も有望なパラダイムの1つである。
微調整は不安定な問題、すなわち同じ設定で同じモデルをチューニングすることで、性能が著しく異なる。
本稿では,2つの一般的な設定に焦点をあてたファインチューニングの理論的安定性解析を提案する。
論文 参考訳(メタデータ) (2023-01-24T05:11:17Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。
本研究では,長尾分布下における敵対的脆弱性と防御について検討する。
我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文 参考訳(メタデータ) (2021-04-06T17:53:08Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Reliable Post hoc Explanations: Modeling Uncertainty in Explainability [44.9824285459365]
ブラックボックスの説明は、高レベルの設定でモデルの信頼性を確立するために、ますます採用されている。
先行研究では、最先端の技術が生み出す説明は一貫性がなく不安定であり、その正確性や信頼性についての洞察はほとんど得られないことが示されている。
局所的な説明と関連する不確実性を生成するための新しいベイズ的枠組みを開発する。
論文 参考訳(メタデータ) (2020-08-11T22:52:21Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。