Fugu-MT 論文翻訳(概要): The Explanation Game -- Rekindled (Extended Version)

論文の概要: The Explanation Game -- Rekindled (Extended Version)

arxiv url: http://arxiv.org/abs/2501.11429v1
Date: Mon, 20 Jan 2025 12:00:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.404577
Title: The Explanation Game -- Rekindled (Extended Version)
Title（参考訳）: The Explanation Game -- Rekindled (Extended Version)
Authors: Joao Marques-Silva, Xuanxiang Huang, Olivier Letoffe,
Abstract要約: 最近の研究は、説明可能なAI(XAI)におけるShapley値の現在の使用における重大な欠陥の存在を実証している。本稿では,既存の欠陥を克服するSHAPスコアの新たな定義を提案する。
参考スコア（独自算出の注目度）: 3.3766484312332303
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work demonstrated the existence of critical flaws in the current use of Shapley values in explainable AI (XAI), i.e. the so-called SHAP scores. These flaws are significant in that the scores provided to a human decision-maker can be misleading. Although these negative results might appear to indicate that Shapley values ought not be used in XAI, this paper argues otherwise. Concretely, this paper proposes a novel definition of SHAP scores that overcomes existing flaws. Furthermore, the paper outlines a practically efficient solution for the rigorous estimation of the novel SHAP scores. Preliminary experimental results confirm our claims, and further underscore the flaws of the current SHAP scores.
Abstract（参考訳）: 近年の研究では、説明可能なAI(XAI)におけるShapley値の現在の使用における重要な欠陥、すなわちいわゆるSHAPスコアの存在が示されている。これらの欠陥は、人間の意思決定者に提供するスコアが誤解を招く可能性があるという点において重要である。これらの否定的な結果は、シェープレー値がXAIで使用すべきでないことを示唆しているように見えるが、この論文はそうでなければ議論する。具体的には,既存の欠陥を克服するSHAPスコアの新たな定義を提案する。さらに,新しいSHAPスコアの厳密な評価のための,実用的に効率的な解法について概説した。予備実験の結果,我々の主張を裏付けるとともに,現在のSHAPスコアの欠陥をさらに強調した。

関連論文リスト

The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
質問応答アプリケーションにおけるモデル編集の有効性について検討する。単一の編集実験により、現在行われている編集手法は、以前報告したよりも大幅に悪化していることが示された。本分析は,既存のモデル編集手法の現実的適用性と評価手法の両面について,基礎的な再検討を行うものである。
論文参考訳（メタデータ） (2025-02-16T15:57:55Z)
SHAP scores fail pervasively even when Lipschitz succeeds [3.3766484312332303]
最近の研究は、計算されたSHAPスコアが完全に満足できない機械学習(ML)分類器の例を考案した。 SHAPスコアでどの程度問題が特定されたかは明らかでない。本稿では,ブール分類器に対して,SHAPスコアを満足できないものとみなさなければならない事例が任意に多数存在することを示す。
論文参考訳（メタデータ） (2024-12-18T14:02:15Z)
From SHAP Scores to Feature Importance Scores [4.8158930873043335]
本稿は,特徴属性と優先投票力の間には,重要な関係があることを示唆する。 XAIの重要度スコア(FIS)として、最も広く使用されるパワー指標のいくつかがどのように利用されるかは、まだ不明である。
論文参考訳（メタデータ） (2024-05-20T03:52:41Z)
Towards trustable SHAP scores [3.3766484312332303]
本稿では, SHAPスコアをXAIのShapley値にまで拡張するために, SHAPスコアをどのように修正するかを検討する。 SHAPスコアの新たな定義は、不満足な結果が特定された既知のすべてのケースを避ける。
論文参考訳（メタデータ） (2024-04-30T10:39:20Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
The Distributional Uncertainty of the SHAP score in Explainable Machine Learning [2.655371341356892]
本稿では,未知の実体集団分布下でのSHAPスコアの推論の原理的枠組みを提案する。我々は,この関数の最大値と最小値を求める基本的な問題について検討し,すべての特徴のSHAPスコアに対して厳密な範囲を決定できることを示した。
論文参考訳（メタデータ） (2024-01-23T13:04:02Z)
Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文参考訳（メタデータ） (2023-08-28T03:03:03Z)
Augmentation by Counterfactual Explanation -- Fixing an Overconfident Classifier [11.233334009240947]
極めて正確だが過信的なモデルは、ヘルスケアや自動運転といった重要なアプリケーションへのデプロイには不適である。本稿では,過度に信頼された分類器の修正に反事実的説明を適用することを提案する。
論文参考訳（メタデータ） (2022-10-21T18:53:16Z)
Shortcomings of Question Answering Based Factuality Frameworks for Error Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文参考訳（メタデータ） (2022-10-13T05:23:38Z)
The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文参考訳（メタデータ） (2022-03-28T09:28:13Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
Deconfounding Scores: Feature Representations for Causal Effect Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。特に,この手法が標準正規化の魅力的な代替となることを示す。
論文参考訳（メタデータ） (2021-04-12T18:50:11Z)
Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction [63.70885228396077]
資源豊富なレビュー評価分類データセットから低リソースタスクTOWEへ意見知識を伝達する新しいモデルを提案する。我々のモデルは、他の最先端手法よりも優れた性能を達成し、意見の知識を伝達することなく、ベースモデルを大幅に上回る。
論文参考訳（メタデータ） (2020-01-07T11:50:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。