論文の概要: Certified $\ell_2$ Attribution Robustness via Uniformly Smoothed Attributions
- arxiv url: http://arxiv.org/abs/2405.06361v1
- Date: Fri, 10 May 2024 09:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 16:07:56.564407
- Title: Certified $\ell_2$ Attribution Robustness via Uniformly Smoothed Attributions
- Title(参考訳): Certified $\ell_2$ Attribution Robustness via Uniformly Smoothed Attributions
- Authors: Fan Wang, Adams Wai-Kin Kong,
- Abstract要約: 本研究では,ある空間から一様にサンプリングされた雑音によってバニラ属性を増大させる一様平滑化手法を提案する。
攻撃領域内の全ての摂動に対して、摂動試料の均一なスムーズな属性と非摂動試料とのコサイン類似性を低くすることが保証された。
- 参考スコア(独自算出の注目度): 20.487079380753876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model attribution is a popular tool to explain the rationales behind model predictions. However, recent work suggests that the attributions are vulnerable to minute perturbations, which can be added to input samples to fool the attributions while maintaining the prediction outputs. Although empirical studies have shown positive performance via adversarial training, an effective certified defense method is eminently needed to understand the robustness of attributions. In this work, we propose to use uniform smoothing technique that augments the vanilla attributions by noises uniformly sampled from a certain space. It is proved that, for all perturbations within the attack region, the cosine similarity between uniformly smoothed attribution of perturbed sample and the unperturbed sample is guaranteed to be lower bounded. We also derive alternative formulations of the certification that is equivalent to the original one and provides the maximum size of perturbation or the minimum smoothing radius such that the attribution can not be perturbed. We evaluate the proposed method on three datasets and show that the proposed method can effectively protect the attributions from attacks, regardless of the architecture of networks, training schemes and the size of the datasets.
- Abstract(参考訳): モデル属性は、モデル予測の背後にある理論的根拠を説明する一般的なツールである。
しかし、最近の研究では、属性は微小摂動に弱いことが示唆されており、入力サンプルに追加することで、予測出力を維持しながら属性を騙すことができる。
実証的研究は, 対人訓練を通じて肯定的な成績を示したが, 属性の堅牢性を理解するためには, 効果的な防御方法が必要である。
本研究では,ある空間から一様にサンプリングされた雑音によってバニラ属性を増大させる一様平滑化手法を提案する。
攻撃領域内の全ての摂動に対して、摂動試料の均一なスムーズな属性と非摂動試料とのコサイン類似性を低くすることが保証された。
また、元のものと同等の証明の別の定式化を導き、摂動の最大サイズや最小平滑半径を提供して、帰属が摂動できないようにする。
提案手法を3つのデータセット上で評価し,ネットワークのアーキテクチャ,トレーニングスキーム,データセットのサイズに関わらず,提案手法が攻撃からの属性を効果的に保護できることを示す。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Confidence-aware Training of Smoothed Classifiers for Certified
Robustness [75.95332266383417]
我々は「ガウス雑音下での精度」を、入力に対する対角的ロバスト性の容易に計算可能なプロキシとして利用する。
実験の結果, 提案手法は, 最先端の訓練手法による信頼性向上を継続的に示すことがわかった。
論文 参考訳(メタデータ) (2022-12-18T03:57:12Z) - Pixel is All You Need: Adversarial Trajectory-Ensemble Active Learning
for Salient Object Detection [40.97103355628434]
弱教師付きデータで訓練されたサリエンシモデルがその完全教師付きバージョンの同等のパフォーマンスを達成できるかどうかは不明である。
我々は,新しい対向軌道アンサンブルアクティブラーニング(ATAL)を提案する。
実験の結果、私たちのALTはそのようなポイントラベル付きデータセットを見つけることができ、トレーニングされたサリエンシモデルは、イメージ毎に10の注釈付きポイントしか持たないフル教師付きバージョンの97%$ --99%のパフォーマンスを得ることができた。
論文 参考訳(メタデータ) (2022-12-13T11:18:08Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Fair mapping [0.0]
本稿では,保護されたグループの分布を選択対象に変換した新しい前処理手法を提案する。
我々はWasserstein GANおよびAttGANフレームワークの最近の成果を活用し、最適なデータポイントの転送を実現する。
提案手法は、データの解釈可能性を維持し、センシティブなグループを正確に定義することなく使用することができる。
論文 参考訳(メタデータ) (2022-09-01T17:31:27Z) - Certifying Model Accuracy under Distribution Shifts [151.67113334248464]
本稿では,データ分布の有界ワッサースタインシフトの下でのモデルの精度について,証明可能なロバスト性保証を提案する。
変換空間におけるモデルの入力をランダム化する単純な手順は、変換の下での分布シフトに対して確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2022-01-28T22:03:50Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Generating Out of Distribution Adversarial Attack using Latent Space
Poisoning [5.1314136039587925]
本稿では,実際の画像が破損しない敵の例を生成する新しいメカニズムを提案する。
潜在空間表現は、画像の固有構造を改ざんするために利用される。
勾配ベースの攻撃とは対照的に、潜時空間中毒は、トレーニングデータセットの独立かつ同一分布をモデル化する分類器の傾きを利用する。
論文 参考訳(メタデータ) (2020-12-09T13:05:44Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Adversarial Robustness of Supervised Sparse Coding [34.94566482399662]
表現を学習すると同時に、正確な一般化境界と堅牢性証明を与えるモデルを考える。
線形エンコーダと組み合わされたスパーシティプロモーティングエンコーダを組み合わせた仮説クラスに着目した。
エンドツーエンドの分類のための堅牢性証明を提供する。
論文 参考訳(メタデータ) (2020-10-22T22:05:21Z) - Regularized Training and Tight Certification for Randomized Smoothed
Classifier with Provable Robustness [15.38718018477333]
我々は新たな正規化リスクを導出し、正規化器はスムーズな手法の精度と堅牢性を適応的に促進することができる。
また、正規化効果を利用して、高い確率で保持されるより厳密なロバスト性の下限を提供する新しい認証アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-02-17T20:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。