論文の概要: Towards Robust and Accurate Stability Estimation of Local Surrogate Models in Text-based Explainable AI
- arxiv url: http://arxiv.org/abs/2501.02042v1
- Date: Fri, 03 Jan 2025 17:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:33.239345
- Title: Towards Robust and Accurate Stability Estimation of Local Surrogate Models in Text-based Explainable AI
- Title(参考訳): テキストベース説明可能なAIにおける局所サロゲートモデルのロバストかつ正確な安定性推定に向けて
- Authors: Christopher Burger, Charles Walter, Thai Le, Lingwei Chen,
- Abstract要約: NLP領域における説明可能なAI(XAI)に対する敵攻撃では、生成された説明が操作される。
このXAI操作の中心は、ある説明が他の説明とどのように異なるかを計算するのに使用される類似度尺度である。
本研究は,テキストベースのランキングリストを対象とした類似度尺度について検討し,その使用適性について検討した。
- 参考スコア(独自算出の注目度): 9.31572645030282
- License:
- Abstract: Recent work has investigated the concept of adversarial attacks on explainable AI (XAI) in the NLP domain with a focus on examining the vulnerability of local surrogate methods such as Lime to adversarial perturbations or small changes on the input of a machine learning (ML) model. In such attacks, the generated explanation is manipulated while the meaning and structure of the original input remain similar under the ML model. Such attacks are especially alarming when XAI is used as a basis for decision making (e.g., prescribing drugs based on AI medical predictors) or for legal action (e.g., legal dispute involving AI software). Although weaknesses across many XAI methods have been shown to exist, the reasons behind why remain little explored. Central to this XAI manipulation is the similarity measure used to calculate how one explanation differs from another. A poor choice of similarity measure can lead to erroneous conclusions about the stability or adversarial robustness of an XAI method. Therefore, this work investigates a variety of similarity measures designed for text-based ranked lists referenced in related work to determine their comparative suitability for use. We find that many measures are overly sensitive, resulting in erroneous estimates of stability. We then propose a weighting scheme for text-based data that incorporates the synonymity between the features within an explanation, providing more accurate estimates of the actual weakness of XAI methods to adversarial examples.
- Abstract(参考訳): 近年、NLPドメインにおけるAI(XAI)に対する敵対的攻撃の概念を調査し、Limeのようなローカルサロゲート手法の脆弱性の調査や、機械学習(ML)モデルの入力に対する小さな変更に焦点を当てている。
このような攻撃では、生成された説明は操作されるが、元の入力の意味と構造は、MLモデルの下では変わらない。
このような攻撃は、XAIが意思決定(例えば、AIの医療予測器に基づく薬物の処方)や法的行為(例えば、AIソフトウェアに関する法的紛争)の基盤として使用される場合、特に警戒される。
多くのXAI手法にまたがる弱点が存在することが示されているが、その理由についてはいまだほとんど調査されていない。
このXAI操作の中心は、ある説明が他の説明とどのように異なるかを計算するのに使用される類似度尺度である。
類似度尺度の貧弱な選択は、XAI法の安定性や対角的堅牢性に関する誤った結論につながる可能性がある。
そこで本研究では,関連研究で参照されているテキストベースランキングの類似度を多種多様に検討し,その使用適性について検討した。
多くの測度が過度に敏感であり、誤った安定性の推定結果が得られた。
そこで,本論文では,XAI手法の実際の弱点をより正確に推定し,その特徴間の同義性を説明の中に組み込んだテキストベースデータの重み付け手法を提案する。
関連論文リスト
- Improving Robustness Estimates in Natural Language Explainable AI though Synonymity Weighted Similarity Measures [0.0]
敵の例は、XAIの有効性を取り巻く文献で顕著である。
自然言語による説明については,情報検索の領域で見られる尺度をランク付けされたリストで用いるのが自然である。
これらの尺度の標準実装は、敵のXAIにおける説明の比較にはあまり適していないことを示す。
論文 参考訳(メタデータ) (2025-01-02T19:49:04Z) - F-Fidelity: A Robust Framework for Faithfulness Evaluation of Explainable AI [15.314388210699443]
微調整フィデリティF-フィデリティはXAIの堅牢な評価フレームワークである。
その結果, F-Fidelity は, 説明者の信頼度を回復する上で, 事前評価基準を著しく改善することを示した。
また,F-Fidelityの指標を忠実に説明すれば,入力成分の空間性を計算することができることを示す。
論文 参考訳(メタデータ) (2024-10-03T20:23:06Z) - The Effect of Similarity Measures on Accurate Stability Estimates for Local Surrogate Models in Text-based Explainable AI [8.23094630594374]
類似度尺度の貧弱な選択は、XAI法の有効性に関する誤った結論につながる可能性がある。
我々は、ケンドールのタウ、スピアマンのフットルル、ランクバイアスオーバーラップなど、テキストベースのランクリスト用に設計された様々な類似度尺度について検討する。
論文 参考訳(メタデータ) (2024-06-22T12:59:12Z) - Are Objective Explanatory Evaluation metrics Trustworthy? An Adversarial Analysis [12.921307214813357]
本論文の目的は,Pixel Elimination を用いた SHifted Adversaries と呼ばれる新しい説明手法を考案することである。
我々は、SHAPEは、一般的な重要度に基づく視覚的XAI手法の堅牢性と信頼性を測定するために使用される因果的指標を騙す逆説であることを示す。
論文 参考訳(メタデータ) (2024-06-12T02:39:46Z) - Adversarial attacks and defenses in explainable artificial intelligence:
A survey [11.541601343587917]
敵機械学習(AdvML)の最近の進歩は、最先端の説明手法の限界と脆弱性を強調している。
本調査は、機械学習モデルの説明に対する敵攻撃に関する総合的な研究の概要を提供する。
論文 参考訳(メタデータ) (2023-06-06T09:53:39Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - ADDMU: Detection of Far-Boundary Adversarial Examples with Data and
Model Uncertainty Estimation [125.52743832477404]
AED(Adversarial Examples Detection)は、敵攻撃に対する重要な防御技術である。
本手法は, 正逆検出とFB逆検出の2種類の不確実性推定を組み合わせた新しい手法である textbfADDMU を提案する。
提案手法は,各シナリオにおいて,従来の手法よりも3.6と6.0のEmphAUC点が優れていた。
論文 参考訳(メタデータ) (2022-10-22T09:11:12Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Detecting Word Sense Disambiguation Biases in Machine Translation for
Model-Agnostic Adversarial Attacks [84.61578555312288]
本稿では,統計的データ特性に基づく曖昧な誤りの予測手法を提案する。
我々は,曖昧な誤りを生じさせるため,文の摂動を最小限に抑える,単純な敵攻撃戦略を開発する。
以上の結果から,曖昧さの堅牢性はドメイン間で大きく異なり,同一データ上でトレーニングされた異なるモデルが異なる攻撃に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2020-11-03T17:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。