論文の概要: A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions
- arxiv url: http://arxiv.org/abs/2405.02344v2
- Date: Wed, 01 Oct 2025 00:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.406598
- Title: A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions
- Title(参考訳): 属性の高忠実度評価のためのバックドアベース説明可能なAIベンチマーク
- Authors: Peiyu Yang, Naveed Akhtar, Jiantong Jiang, Ajmal Mian,
- Abstract要約: まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
- 参考スコア(独自算出の注目度): 60.06461883533697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attribution methods compute importance scores for input features to explain model predictions. However, assessing the faithfulness of these methods remains challenging due to the absence of attribution ground truth to model predictions. In this work, we first identify a set of fidelity criteria that reliable benchmarks for attribution methods are expected to fulfill, thereby facilitating a systematic assessment of attribution benchmarks. Next, we introduce a Backdoor-based eXplainable AI benchmark (BackX) that adheres to the desired fidelity criteria. We theoretically establish the superiority of our approach over the existing benchmarks for well-founded attribution evaluation. With extensive analysis, we further establish a standardized evaluation setup that mitigates confounding factors such as post-processing techniques and explained predictions, thereby ensuring a fair and consistent benchmarking. This setup is ultimately employed for a comprehensive comparison of existing methods using BackX. Finally, our analysis also offers insights into defending against neural Trojans by utilizing the attributions.
- Abstract(参考訳): 属性法は入力特徴の重要度を計算し、モデル予測を説明する。
しかしながら、これらの手法の忠実さを評価することは、モデル予測への帰属基盤の真理が欠如していることから、依然として困難である。
本研究はまず,属性手法の信頼性ベンチマークが満たすであろう信頼度基準の集合を同定し,属性評価の体系的評価を容易にする。
次に、所望の忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
提案手法は,提案手法の既存ベンチマークに対する優位性を理論的に確立し,信頼性の高い属性評価を行う。
広範に分析することで、後処理技術や説明予測といった相反する要因を緩和し、公平で一貫したベンチマークを保証するための標準化された評価設定をさらに確立する。
この設定は最終的に、BackXを使った既存のメソッドの包括的な比較に使用される。
最後に、我々の分析は、属性を利用して神経トロイの木馬を守るための洞察も提供する。
関連論文リスト
- Are Bias Evaluation Methods Biased ? [3.9748528039819977]
大規模言語モデルの安全性を評価するためのベンチマークの作成は、信頼できるAIコミュニティにおける重要な活動のひとつだ。
このようなベンチマークがいかに頑健であるかを、異なるアプローチを用いて、偏見を表すモデルの集合をランク付けし、全体ランキングがどの程度類似しているかを比較する。
論文 参考訳(メタデータ) (2025-06-20T16:11:25Z) - From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。
プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges [13.526258635654882]
本研究では,大規模言語モデル(LLM)能力評価のためのベイズ的アプローチを提案する。
モデル機能を潜時変数として扱い、キュレートされたクエリセットを利用して識別応答を誘導する。
GPTシリーズモデルを用いた実験により,提案手法は従来の評価手法よりも優れた識別性が得られることが示された。
論文 参考訳(メタデータ) (2025-04-30T04:24:50Z) - Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - Rethinking Robustness in Machine Learning: A Posterior Agreement Approach [45.284633306624634]
モデル検証の後方合意(PA)理論は、ロバストネス評価のための原則的な枠組みを提供する。
本稿では,PA尺度が学習アルゴリズムの脆弱性を,ほとんど観測されていない場合でも,合理的かつ一貫した分析を提供することを示す。
論文 参考訳(メタデータ) (2025-03-20T16:03:39Z) - BEExAI: Benchmark to Evaluate Explainable AI [0.9176056742068812]
本稿では,ポストホックXAI手法の大規模比較を可能にするベンチマークツールであるBEExAIを提案する。
説明の質と正確性を測定するための信頼性の高い方法の必要性が重要になっていると論じる。
論文 参考訳(メタデータ) (2024-07-29T11:21:17Z) - On the Evaluation Consistency of Attribution-based Explanations [42.1421504321572]
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。
1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-07-28T11:49:06Z) - Trustworthy Classification through Rank-Based Conformal Prediction Sets [9.559062601251464]
本稿では,分類モデルに適したランクベーススコア関数を用いた新しいコンフォメーション予測手法を提案する。
提案手法は,そのサイズを管理しながら,所望のカバレッジ率を達成する予測セットを構築する。
コントリビューションには、新しい共形予測法、理論的解析、経験的評価が含まれる。
論文 参考訳(メタデータ) (2024-07-05T10:43:41Z) - Conformal Approach To Gaussian Process Surrogate Evaluation With
Coverage Guarantees [47.22930583160043]
適応型クロスコンフォーマル予測区間を構築する手法を提案する。
結果として生じる共形予測区間は、ベイズ的信頼性集合に類似した適応性のレベルを示す。
原子炉の蒸気発生器における閉鎖現象の高コスト・評価シミュレータのサロゲートモデリングの文脈において, 本手法の適用可能性を示す。
論文 参考訳(メタデータ) (2024-01-15T14:45:18Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - TopP&R: Robust Support Estimation Approach for Evaluating Fidelity and
Diversity in Generative Models [9.048102020202817]
Topological Precision and Recall (TopP&R)は、サポートを推定するための体系的なアプローチを提供する。
以上の結果から,TopP&Rは非独立性および非非独立性(Non-IID)摂動に対して頑健であることがわかった。
これは、支持体のロバストな推定に焦点を当てた最初の評価指標であり、雑音下での統計的一貫性を提供する。
論文 参考訳(メタデータ) (2023-06-13T11:46:00Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - A Unified Taylor Framework for Revisiting Attribution Methods [49.03783992773811]
我々はTaylor属性フレームワークを提案し、7つの主流属性メソッドをフレームワークに再構成する。
我々はTaylor属性フレームワークにおいて、良い属性の3つの原則を確立する。
論文 参考訳(メタデータ) (2020-08-21T22:07:06Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。