論文の概要: Rethinking Robustness of Model Attributions
- arxiv url: http://arxiv.org/abs/2312.10534v1
- Date: Sat, 16 Dec 2023 20:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:08:51.979465
- Title: Rethinking Robustness of Model Attributions
- Title(参考訳): モデル帰属のロバスト性再考
- Authors: Sandesh Kamath, Sankalp Mittal, Amit Deshpande, Vineeth N
Balasubramanian
- Abstract要約: 多くの属性手法は脆弱であり,これらの手法やモデルトレーニングの改良が提案されている。
まず、ロバスト性に関する既存の指標は、アトリビューションにおける合理的な局所的なシフトを過度に負担する。
本稿では,ロバストネス指標における画素の局所性と属性における画素位置の多様性を組み込んだ既存メトリクスと属性手法の簡易な強化手法を提案する。
- 参考スコア(独自算出の注目度): 24.317595434521504
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For machine learning models to be reliable and trustworthy, their decisions
must be interpretable. As these models find increasing use in safety-critical
applications, it is important that not just the model predictions but also
their explanations (as feature attributions) be robust to small
human-imperceptible input perturbations. Recent works have shown that many
attribution methods are fragile and have proposed improvements in either these
methods or the model training. We observe two main causes for fragile
attributions: first, the existing metrics of robustness (e.g., top-k
intersection) over-penalize even reasonable local shifts in attribution,
thereby making random perturbations to appear as a strong attack, and second,
the attribution can be concentrated in a small region even when there are
multiple important parts in an image. To rectify this, we propose simple ways
to strengthen existing metrics and attribution methods that incorporate
locality of pixels in robustness metrics and diversity of pixel locations in
attributions. Towards the role of model training in attributional robustness,
we empirically observe that adversarially trained models have more robust
attributions on smaller datasets, however, this advantage disappears in larger
datasets. Code is available at https://github.com/ksandeshk/LENS.
- Abstract(参考訳): 機械学習モデルが信頼性と信頼性を持つためには、その決定は解釈されなければならない。
これらのモデルが安全クリティカルなアプリケーションでの利用が増加する中、モデル予測だけでなく、その説明(特徴属性として)が人間に知覚できない小さな入力摂動に対して堅牢であることが重要である。
近年の研究では、多くの属性手法が脆弱であることが示されており、これらの手法やモデルトレーニングの改善が提案されている。
まず,既存のロバスト性指標(トップk交差点など)は,アトリビューションにおける妥当な局所的なシフトを過度にペナルティ化し,ランダムな摂動が強い攻撃として現れるようにし,さらに画像に複数の重要な部分があっても小さな領域に集中することができる。
そこで本稿では,ロバストネス指標における画素の局所性や属性における画素位置の多様性を取り入れた,既存のメトリクスと属性の簡易化手法を提案する。
帰属的ロバスト性においてモデルトレーニングが果たす役割を実証的に見たところ、敵対的な訓練を受けたモデルはより小さなデータセットにロバストな属性を持つが、この利点はより大きなデータセットでは失われる。
コードはhttps://github.com/ksandeshk/lensで入手できる。
関連論文リスト
- Characterizing Data Point Vulnerability via Average-Case Robustness [29.881355412540557]
対向ロバスト性は標準的なフレームワークであり、二眼レフを通して予測のロバスト性を見る。
我々は、局所的な点数を測定する平均ケースロバストネスと呼ばれる、ロバストネスの相補的な枠組みを考察する。
従来のディープラーニングモデルでは,推定値が正確かつ効率的であることを実証的に示す。
論文 参考訳(メタデータ) (2023-07-26T01:10:29Z) - Interpretable Computer Vision Models through Adversarial Training:
Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。
標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文 参考訳(メタデータ) (2023-07-04T13:51:55Z) - On Evaluating the Adversarial Robustness of Semantic Segmentation Models [0.0]
敵の摂動に対する防御手段として、多くの敵の訓練アプローチが提案されている。
私たちは、前回の作業で堅牢であると主張するモデルが、実際にはまったく堅牢ではないことを初めて示しています。
次に, 強攻撃群においても, 合理的に堅牢なモデルを生成する, 単純な対向訓練アルゴリズムを評価する。
論文 参考訳(メタデータ) (2023-06-25T11:45:08Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Defensive Patches for Robust Recognition in the Physical World [111.46724655123813]
データエンドディフェンスは、モデルを変更する代わりに入力データの操作によって堅牢性を改善する。
従来のデータエンドディフェンスは、様々なノイズに対する低一般化と、複数のモデル間での弱い転送可能性を示している。
モデルがこれらの機能をよりよく活用することを支援することにより、これらの問題に対処するための防御パッチ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-13T07:34:51Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - How to compare adversarial robustness of classifiers from a global
perspective [0.0]
敵対的攻撃は、機械学習モデルの信頼性と信頼性を損なう。
特定の脅威モデルのポイントワイド測度は、現在、分類器の堅牢性を比較するための最も一般的なツールである。
本研究では,最近提案されたロバストネス曲線を用いて,ポイントワイド測度が重要なグローバルな特性を捉えることができないことを示す。
論文 参考訳(メタデータ) (2020-04-22T22:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。