論文の概要: SHLIME: Foiling adversarial attacks fooling SHAP and LIME
- arxiv url: http://arxiv.org/abs/2508.11053v1
- Date: Thu, 14 Aug 2025 20:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.66357
- Title: SHLIME: Foiling adversarial attacks fooling SHAP and LIME
- Title(参考訳): SHLIME: SHAPとLIMEを騙す敵攻撃を偽造
- Authors: Sam Chauhan, Estelle Duguet, Karthik Ramakrishnan, Hugh Van Deventer, Jack Kruger, Ranjan Subbaraman,
- Abstract要約: LIMEやSHAPのようなポストホックな説明法はブラックボックス分類器に対する解釈可能な洞察を提供する。
これらの方法は敵の操作に弱いため、有害なバイアスを隠蔽する可能性がある。
バイアスモデルに対するLIMEとSHAPの感受性について検討し、ロバスト性向上のための戦略を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post hoc explanation methods, such as LIME and SHAP, provide interpretable insights into black-box classifiers and are increasingly used to assess model biases and generalizability. However, these methods are vulnerable to adversarial manipulation, potentially concealing harmful biases. Building on the work of Slack et al. (2020), we investigate the susceptibility of LIME and SHAP to biased models and evaluate strategies for improving robustness. We first replicate the original COMPAS experiment to validate prior findings and establish a baseline. We then introduce a modular testing framework enabling systematic evaluation of augmented and ensemble explanation approaches across classifiers of varying performance. Using this framework, we assess multiple LIME/SHAP ensemble configurations on out-of-distribution models, comparing their resistance to bias concealment against the original methods. Our results identify configurations that substantially improve bias detection, highlighting their potential for enhancing transparency in the deployment of high-stakes machine learning systems.
- Abstract(参考訳): LIMEやSHAPのようなポストホックな説明法はブラックボックス分類器の解釈可能な洞察を提供し、モデルバイアスと一般化可能性の評価にますます利用されている。
しかし、これらの手法は敵の操作に弱いため、有害なバイアスを隠蔽する可能性がある。
Slackなど(2020)の作業に基づいて,バイアスモデルに対するLIMEとSHAPの感受性を調査し,ロバスト性向上のための戦略を評価する。
まず、元のCompAS実験を再現し、事前の知見を検証し、ベースラインを確立する。
次に,様々な性能の分類器をまたいだ拡張的・アンサンブル的な説明手法の体系的評価を可能にするモジュール型テストフレームワークを提案する。
このフレームワークを用いて,分布外モデルに基づく複数のLIME/SHAPアンサンブル構成を評価し,元の手法に対するバイアスの隠蔽に対する耐性を比較した。
この結果から,バイアス検出を大幅に改善する構成を同定し,高精度な機械学習システムの展開における透明性向上の可能性を強調した。
関連論文リスト
- SHAP-Guided Regularization in Machine Learning Models [1.0515439489916734]
本稿では,特徴量制約をモデルトレーニングに組み込んだSHAP誘導正規化フレームワークを提案する。
提案手法は, アントロピーに基づくペナルティを応用し, スパース, 集中した特徴属性の促進と, 試料間の安定性の促進を図った。
論文 参考訳(メタデータ) (2025-07-31T15:45:38Z) - On Evaluating Performance of LLM Inference Serving Systems [11.712948114304925]
ベースラインフェアネス、評価設定、メトリックデザインの3つの重要な側面で繰り返し発生するアンチパターンを特定します。
これらのアンチパターンは、その二重相の性質のため、Large Language Model (LLM)推論に固有の問題である。
分析から得られた包括的なチェックリストを提供し、これらのアンチパターンを認識して回避するためのフレームワークを構築します。
論文 参考訳(メタデータ) (2025-07-11T20:58:21Z) - OET: Optimization-based prompt injection Evaluation Toolkit [25.148709805243836]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示した。
インジェクション攻撃に対する感受性は、重大なセキュリティリスクを生じさせる。
多くの防衛戦略にもかかわらず、その効果を厳格に評価する標準化された枠組みが欠如している。
論文 参考訳(メタデータ) (2025-05-01T20:09:48Z) - Epistemic Uncertainty-aware Recommendation Systems via Bayesian Deep Ensemble Learning [2.3310092106321365]
より堅牢で信頼性の高い予測を生成するために,アンサンブルに基づくスーパーモデルを提案する。
また,ユーザとアイテムの埋め込みに対して,解釈可能な非線形マッチング手法を導入する。
論文 参考訳(メタデータ) (2025-04-14T23:04:35Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。