Fugu-MT 論文翻訳(概要): Meta-evaluating stability measures: MAX-Senstivity & AVG-Sensitivity

論文の概要: Meta-evaluating stability measures: MAX-Senstivity & AVG-Sensitivity

arxiv url: http://arxiv.org/abs/2412.10942v1
Date: Sat, 14 Dec 2024 19:34:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.900964
Title: Meta-evaluating stability measures: MAX-Senstivity & AVG-Sensitivity
Title（参考訳）: メタ評価安定度:MAX感度とAVG感度
Authors: Miquel Miró-Nicolau, Antoni Jaume-i-Capó, Gabriel Moyà-Alcover,
Abstract要約: XAIの堅牢性、すなわち安定性は、当初からコミュニティの目標のひとつでした。複数の著者が客観的評価尺度を用いてこの特徴を評価することを提案した。本稿では,これらの指標をメタ評価する新しい手法,すなわち評価器の正しさを解析する手法を提案する。
参考スコア（独自算出の注目度）: 0.8192907805418583
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The use of eXplainable Artificial Intelligence (XAI) systems has introduced a set of challenges that need resolution. The XAI robustness, or stability, has been one of the goals of the community from its beginning. Multiple authors have proposed evaluating this feature using objective evaluation measures. Nonetheless, many questions remain. With this work, we propose a novel approach to meta-evaluate these metrics, i.e. analyze the correctness of the evaluators. We propose two new tests that allowed us to evaluate two different stability measures: AVG-Sensitiviy and MAX-Senstivity. We tested their reliability in the presence of perfect and robust explanations, generated with a Decision Tree; as well as completely random explanations and prediction. The metrics results showed their incapacity of identify as erroneous the random explanations, highlighting their overall unreliability.
Abstract（参考訳）: eXplainable Artificial Intelligence (XAI)システムの使用は、解決を必要とする一連の課題を導入している。 XAIの堅牢性、すなわち安定性は、当初からコミュニティの目標のひとつでした。複数の著者が客観的評価尺度を用いてこの特徴を評価することを提案した。しかし、多くの疑問が残る。本研究では,これらの指標をメタ評価するための新しい手法,すなわち評価器の正しさを解析する手法を提案する。 AVG-SensitiviyとMAX-Senstivityの2つの異なる安定度を評価できる2つの新しい試験を提案する。決定木を用いて生成した完全かつ堅牢な説明の存在下で,それらの信頼性を検証し,また,完全にランダムな説明と予測を行った。その結果,無作為な説明を誤認する能力は認められず,全体的な信頼性の低下が示唆された。

関連論文リスト

Beyond Easy Wins: A Text Hardness-Aware Benchmark for LLM-generated Text Detection [0.38233569758620056]
本稿では,現実的かつ公平な評価を優先する,AIテキスト検出のための新しい評価パラダイムを提案する。我々のベンチマークであるShielDは、信頼性と安定性の両要素を統一評価基準に統合することにより、これらの制限に対処する。制御可能な硬度パラメータを組み込んだモデル非依存型ヒューマニフィケーションフレームワークを開発した。
論文参考訳（メタデータ） (2025-07-21T06:37:27Z)
Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文参考訳（メタデータ） (2024-07-10T09:13:11Z)
Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文参考訳（メタデータ） (2024-07-02T04:23:54Z)
Can you trust your explanations? A robustness test for feature attribution methods [42.36530107262305]
説明可能なAI(XAI)の分野は急速に成長しているが、その技術の使用は時々予期せぬ結果をもたらした。多様体仮説とアンサンブルアプローチの活用が、ロバスト性の詳細な解析にどのように役立つかを示す。
論文参考訳（メタデータ） (2024-06-20T14:17:57Z)
Are Objective Explanatory Evaluation metrics Trustworthy? An Adversarial Analysis [12.921307214813357]
本論文の目的は,Pixel Elimination を用いた SHifted Adversaries と呼ばれる新しい説明手法を考案することである。我々は、SHAPEは、一般的な重要度に基づく視覚的XAI手法の堅牢性と信頼性を測定するために使用される因果的指標を騙す逆説であることを示す。
論文参考訳（メタデータ） (2024-06-12T02:39:46Z)
On the stability, correctness and plausibility of visual explanation methods based on feature importance [0.0]
画像分類器の特徴的重要性に基づいて, 説明の安定性, 正確性, 妥当性の相違について検討した。これらの特性を評価するための既存の指標は必ずしも一致せず、説明のための優れた評価基準を構成するものの問題を提起する。
論文参考訳（メタデータ） (2023-10-25T08:59:21Z)
Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文参考訳（メタデータ） (2023-08-28T03:03:03Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
An Experimental Investigation into the Evaluation of Explainability Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文参考訳（メタデータ） (2023-05-25T08:07:07Z)
Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文参考訳（メタデータ） (2023-04-13T17:56:08Z)
The Meta-Evaluation Problem in Explainable AI: Identifying Reliable Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文参考訳（メタデータ） (2023-02-14T18:59:02Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
SAFARI: Versatile and Efficient Evaluations for Robustness of Interpretability [11.230696151134367]
ディープラーニング(DL)の解釈可能性(Interpretability of Deep Learning)は、信頼できるAIの障壁である。 XAI法を考慮すれば, DLの堅牢性を評価することが不可欠である。
論文参考訳（メタデータ） (2022-08-19T16:07:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。