論文の概要: Improving Stability Estimates in Adversarial Explainable AI through Alternate Search Methods
- arxiv url: http://arxiv.org/abs/2501.09006v1
- Date: Wed, 15 Jan 2025 18:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:51:57.663642
- Title: Improving Stability Estimates in Adversarial Explainable AI through Alternate Search Methods
- Title(参考訳): 交互探索による対向的説明可能なAIの安定性評価の改善
- Authors: Christopher Burger, Charles Walter,
- Abstract要約: 局所代理法は複雑な機械学習モデルの動作を近似するために使われてきた。
最近の研究は、生成した説明が著しく異なる敵攻撃に対する脆弱性を明らかにしている。
本稿では,最小限の摂動の探索を目的とした代替探索手法について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Advances in the effectiveness of machine learning models have come at the cost of enormous complexity resulting in a poor understanding of how they function. Local surrogate methods have been used to approximate the workings of these complex models, but recent work has revealed their vulnerability to adversarial attacks where the explanation produced is appreciably different while the meaning and structure of the complex model's output remains similar. This prior work has focused on the existence of these weaknesses but not on their magnitude. Here we explore using an alternate search method with the goal of finding minimum viable perturbations, the fewest perturbations necessary to achieve a fixed similarity value between the original and altered text's explanation. Intuitively, a method that requires fewer perturbations to expose a given level of instability is inferior to one which requires more. This nuance allows for superior comparisons of the stability of explainability methods.
- Abstract(参考訳): 機械学習モデルの有効性の進歩は、膨大な複雑さを犠牲にして、それらがどのように機能するかの理解が不十分になっている。
局所代理法はこれらの複雑なモデルの動作を近似するために用いられてきたが、近年の研究により、複雑なモデルの出力の意味と構造が相変わらず、生成した説明が相変わらず相変わらず異なる敵攻撃に対する脆弱性が明らかにされている。
この以前の研究は、これらの弱点の存在に焦点を合わせているが、その大きさには焦点を当てていない。
そこで本研究では,原文と修正文の説明の類似性を固定化するために必要となる最少の摂動である,最小限の摂動を求めるために,代替探索法を用いて検討する。
直観的には、与えられた不安定なレベルを明らかにするために摂動を少なくする手法は、より多くの要求を必要とする方法よりも劣る。
このニュアンスにより、説明可能性法の安定性の比較が優れている。
関連論文リスト
- The Effect of Similarity Measures on Accurate Stability Estimates for Local Surrogate Models in Text-based Explainable AI [8.23094630594374]
類似度尺度の貧弱な選択は、XAI法の有効性に関する誤った結論をもたらす可能性がある。
本稿では,Kendall's Tau,Spearman's Footrule, Rank-biased Overlapなど,テキストベースのランクリスト用に設計された類似度尺度について検討する。
論文 参考訳(メタデータ) (2024-06-22T12:59:12Z) - Exploring the Trade-off Between Model Performance and Explanation Plausibility of Text Classifiers Using Human Rationales [3.242050660144211]
ホック後説明可能性法は、ますます複雑なNLPモデルを理解するための重要なツールである。
本稿では,人間の判断を説明するテキストアノテーションをテキスト分類モデルに組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T22:39:33Z) - Uncertainty in Additive Feature Attribution methods [34.80932512496311]
本稿では,付加的特徴帰属説明法のクラスに焦点をあてる。
特徴の属性と不確実性との関係を考察し,相関関係をほとんど観察しない。
このようなインスタンスに対して"stable instance"という用語を作り、インスタンスを安定させる要因を診断します。
論文 参考訳(メタデータ) (2023-11-29T08:40:46Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - On the Robustness of Removal-Based Feature Attributions [17.679374058425346]
我々は、除去に基づく特徴属性のロバスト性の特性を理論的に特徴づける。
具体的には、このような手法を統一的に分析し、無害な帰属と摂動した帰属の差について上界を導出する。
合成および実世界のデータによる結果から理論的結果が検証され,その実用的意義が実証された。
論文 参考訳(メタデータ) (2023-06-12T23:33:13Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。
画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T12:26:27Z) - Learning explanations that are hard to vary [75.30552491694066]
例を越えた平均化は、異なる戦略を縫合する記憶とパッチワークのソリューションに有利であることを示す。
そこで我々は論理ANDに基づく単純な代替アルゴリズムを提案し,実験的に検証する。
論文 参考訳(メタデータ) (2020-09-01T10:17:48Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Robustness from Simple Classifiers [31.50446148110293]
頑丈さと単純さの関連について検討する。
出力クラス数を減らした単純な分類器は、対角的摂動の影響を受けにくいことが判明した。
論文 参考訳(メタデータ) (2020-02-21T17:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。