論文の概要: Improving Stability Estimates in Adversarial Explainable AI through Alternate Search Methods
- arxiv url: http://arxiv.org/abs/2501.09006v1
- Date: Wed, 15 Jan 2025 18:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 16:46:28.521679
- Title: Improving Stability Estimates in Adversarial Explainable AI through Alternate Search Methods
- Title(参考訳): 交互探索による対向的説明可能なAIの安定性評価の改善
- Authors: Christopher Burger, Charles Walter,
- Abstract要約: 局所代理法は複雑な機械学習モデルの動作を近似するために使われてきた。
最近の研究は、生成した説明が著しく異なる敵攻撃に対する脆弱性を明らかにしている。
本稿では,最小限の摂動の探索を目的とした代替探索手法について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in the effectiveness of machine learning models have come at the cost of enormous complexity resulting in a poor understanding of how they function. Local surrogate methods have been used to approximate the workings of these complex models, but recent work has revealed their vulnerability to adversarial attacks where the explanation produced is appreciably different while the meaning and structure of the complex model's output remains similar. This prior work has focused on the existence of these weaknesses but not on their magnitude. Here we explore using an alternate search method with the goal of finding minimum viable perturbations, the fewest perturbations necessary to achieve a fixed similarity value between the original and altered text's explanation. Intuitively, a method that requires fewer perturbations to expose a given level of instability is inferior to one which requires more. This nuance allows for superior comparisons of the stability of explainability methods.
- Abstract(参考訳): 機械学習モデルの有効性の進歩は、膨大な複雑さを犠牲にして、それらがどのように機能するかの理解が不十分になっている。
局所代理法はこれらの複雑なモデルの動作を近似するために用いられてきたが、近年の研究により、複雑なモデルの出力の意味と構造が相変わらず、生成した説明が相変わらず相変わらず異なる敵攻撃に対する脆弱性が明らかにされている。
この以前の研究は、これらの弱点の存在に焦点を合わせているが、その大きさには焦点を当てていない。
そこで本研究では,原文と修正文の説明の類似性を固定化するために必要となる最少の摂動である,最小限の摂動を求めるために,代替探索法を用いて検討する。
直観的には、与えられた不安定なレベルを明らかにするために摂動を少なくする手法は、より多くの要求を必要とする方法よりも劣る。
このニュアンスにより、説明可能性法の安定性の比較が優れている。
関連論文リスト
- TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - The Effect of Similarity Measures on Accurate Stability Estimates for Local Surrogate Models in Text-based Explainable AI [8.23094630594374]
類似度尺度の貧弱な選択は、XAI法の有効性に関する誤った結論をもたらす可能性がある。
本稿では,Kendall's Tau,Spearman's Footrule, Rank-biased Overlapなど,テキストベースのランクリスト用に設計された類似度尺度について検討する。
論文 参考訳(メタデータ) (2024-06-22T12:59:12Z) - Exploring the Trade-off Between Model Performance and Explanation Plausibility of Text Classifiers Using Human Rationales [3.242050660144211]
ホック後説明可能性法は、ますます複雑なNLPモデルを理解するための重要なツールである。
本稿では,人間の判断を説明するテキストアノテーションをテキスト分類モデルに組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T22:39:33Z) - Uncertainty in Additive Feature Attribution methods [34.80932512496311]
本稿では,付加的特徴帰属説明法のクラスに焦点をあてる。
特徴の属性と不確実性との関係を考察し,相関関係をほとんど観察しない。
このようなインスタンスに対して"stable instance"という用語を作り、インスタンスを安定させる要因を診断します。
論文 参考訳(メタデータ) (2023-11-29T08:40:46Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - On the Robustness of Removal-Based Feature Attributions [17.679374058425346]
我々は、除去に基づく特徴属性のロバスト性の特性を理論的に特徴づける。
具体的には、このような手法を統一的に分析し、無害な帰属と摂動した帰属の差について上界を導出する。
合成および実世界のデータによる結果から理論的結果が検証され,その実用的意義が実証された。
論文 参考訳(メタデータ) (2023-06-12T23:33:13Z) - Don't Explain Noise: Robust Counterfactuals for Randomized Ensembles [50.81061839052459]
我々は確率論的問題として、堅牢な対実的説明の生成を定式化する。
アンサンブルモデルのロバスト性とベース学習者のロバスト性との関係を示す。
本手法は, 反実的説明から初期観測までの距離をわずかに増加させるだけで, 高いロバスト性を実現する。
論文 参考訳(メタデータ) (2022-05-27T17:28:54Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。
画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T12:26:27Z) - Learning explanations that are hard to vary [75.30552491694066]
例を越えた平均化は、異なる戦略を縫合する記憶とパッチワークのソリューションに有利であることを示す。
そこで我々は論理ANDに基づく単純な代替アルゴリズムを提案し,実験的に検証する。
論文 参考訳(メタデータ) (2020-09-01T10:17:48Z) - Robustness from Simple Classifiers [31.50446148110293]
頑丈さと単純さの関連について検討する。
出力クラス数を減らした単純な分類器は、対角的摂動の影響を受けにくいことが判明した。
論文 参考訳(メタデータ) (2020-02-21T17:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。