論文の概要: From Flexibility to Manipulation: The Slippery Slope of XAI Evaluation
- arxiv url: http://arxiv.org/abs/2412.05592v1
- Date: Sat, 07 Dec 2024 09:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:36.811063
- Title: From Flexibility to Manipulation: The Slippery Slope of XAI Evaluation
- Title(参考訳): フレキシビリティから操作へ:XAI評価のスリップスロープ
- Authors: Kristoffer Wickstrøm, Marina Marie-Claire Höhne, Anna Hedström,
- Abstract要約: 基礎的真理説明ラベルの欠如は、説明可能な人工知能(XAI)における定量的評価の根本的な課題である
本稿では,この柔軟性を利用して評価結果の操作を行う方法について述べる。
評価結果に大きな変化がある複数のデータセットをまたいだ操作の有効性を実証する。
- 参考スコア(独自算出の注目度): 3.190227267121047
- License:
- Abstract: The lack of ground truth explanation labels is a fundamental challenge for quantitative evaluation in explainable artificial intelligence (XAI). This challenge becomes especially problematic when evaluation methods have numerous hyperparameters that must be specified by the user, as there is no ground truth to determine an optimal hyperparameter selection. It is typically not feasible to do an exhaustive search of hyperparameters so researchers typically make a normative choice based on similar studies in the literature, which provides great flexibility for the user. In this work, we illustrate how this flexibility can be exploited to manipulate the evaluation outcome. We frame this manipulation as an adversarial attack on the evaluation where seemingly innocent changes in hyperparameter setting significantly influence the evaluation outcome. We demonstrate the effectiveness of our manipulation across several datasets with large changes in evaluation outcomes across several explanation methods and models. Lastly, we propose a mitigation strategy based on ranking across hyperparameters that aims to provide robustness towards such manipulation. This work highlights the difficulty of conducting reliable XAI evaluation and emphasizes the importance of a holistic and transparent approach to evaluation in XAI.
- Abstract(参考訳): 基礎的真理説明ラベルの欠如は、説明可能な人工知能(XAI)における定量的評価の基本的な課題である。
この課題は、最適なハイパーパラメータ選択を決定するための基礎的真実が存在しないため、評価手法がユーザによって指定されなければならない多数のハイパーパラメータを持つ場合、特に問題となる。
通常、ハイパーパラメーターを徹底的に探索することは不可能なので、研究者は文学における同様の研究に基づいて規範的な選択をする。
本稿では,この柔軟性を利用して評価結果の操作を行う方法について述べる。
我々は,この操作を,一見無作為なハイパーパラメータ設定の変化が評価結果に大きな影響を及ぼす評価に対する敵意的な攻撃とみなす。
提案手法とモデルを用いて,評価結果が大きく変化した複数のデータセット間での操作の有効性を実証する。
最後に、このような操作に対して堅牢性を提供することを目的とした、ハイパーパラメータのランク付けに基づく緩和戦略を提案する。
本研究は、信頼性の高いXAI評価を実施することの難しさを強調し、XAIにおける評価に対する全体的かつ透明なアプローチの重要性を強調する。
関連論文リスト
- SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward
Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-24T01:47:56Z) - Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Hyperparameter Learning under Data Poisoning: Analysis of the Influence
of Regularization via Multiobjective Bilevel Optimization [3.3181276611945263]
機械学習(ML)アルゴリズムは、アルゴリズムのパフォーマンスを意図的に劣化させるためにトレーニングデータの一部が操作される、中毒攻撃に対して脆弱である。
最適な攻撃は、二段階最適化問題として定式化することができ、最悪のシナリオでその堅牢性を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-06-02T15:21:05Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - SAFARI: Versatile and Efficient Evaluations for Robustness of
Interpretability [11.230696151134367]
ディープラーニング(DL)の解釈可能性(Interpretability of Deep Learning)は、信頼できるAIの障壁である。
XAI法を考慮すれば, DLの堅牢性を評価することが不可欠である。
論文 参考訳(メタデータ) (2022-08-19T16:07:22Z) - A Theoretical Framework of Almost Hyperparameter-free Hyperparameter
Selection Methods for Offline Policy Evaluation [2.741266294612776]
オフライン強化学習(OPE)は、環境シミュレーターを使わずに、データ駆動型決定最適化のための中核技術である。
最適性(選択基準と呼ばれる)の概念を定量的かつ解釈可能な方法で定義するOPEのための近似ハイパーパラメータ選択フレームワークを提案する。
収束率や時間複雑性などの異なる特徴を持つ4つのAHS法を導出する。
論文 参考訳(メタデータ) (2022-01-07T02:23:09Z) - Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。
この課題に対処するための新しいクロスバリデーションのような方法論を提供する。
本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文 参考訳(メタデータ) (2021-12-14T17:53:01Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。