Fugu-MT 論文翻訳(概要): Benchmarking XAI Explanations with Human-Aligned Evaluations

論文の概要: Benchmarking XAI Explanations with Human-Aligned Evaluations

arxiv url: http://arxiv.org/abs/2411.02470v1
Date: Mon, 04 Nov 2024 15:18:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.293923
Title: Benchmarking XAI Explanations with Human-Aligned Evaluations
Title（参考訳）: ヒューマンアライメント評価によるXAI説明のベンチマーク
Authors: Rémi Kazmierczak, Steve Azzolin, Eloïse Berthier, Anna Hedström, Patricia Delhomme, Nicolas Bousquet, Goran Frehse, Massimiliano Mancini, Baptiste Caramiaux, Andrea Passerini, Gianni Franchi,
Abstract要約: PASTAはコンピュータビジョンにおけるXAI技術の人間中心評価のための新しいフレームワークである。最初の重要な貢献は、4つの多様なデータセットにおけるXAI説明の人間による評価である。 2つ目の大きな貢献は、説明の解釈可能性を評価するためのデータベースのメトリクスです。
参考スコア（独自算出の注目度）: 22.040547484183712
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce PASTA (Perceptual Assessment System for explanaTion of Artificial intelligence), a novel framework for a human-centric evaluation of XAI techniques in computer vision. Our first key contribution is a human evaluation of XAI explanations on four diverse datasets (COCO, Pascal Parts, Cats Dogs Cars, and MonumAI) which constitutes the first large-scale benchmark dataset for XAI, with annotations at both the image and concept levels. This dataset allows for robust evaluation and comparison across various XAI methods. Our second major contribution is a data-based metric for assessing the interpretability of explanations. It mimics human preferences, based on a database of human evaluations of explanations in the PASTA-dataset. With its dataset and metric, the PASTA framework provides consistent and reliable comparisons between XAI techniques, in a way that is scalable but still aligned with human evaluations. Additionally, our benchmark allows for comparisons between explanations across different modalities, an aspect previously unaddressed. Our findings indicate that humans tend to prefer saliency maps over other explanation types. Moreover, we provide evidence that human assessments show a low correlation with existing XAI metrics that are numerically simulated by probing the model.
Abstract（参考訳）: 本稿では,コンピュータビジョンにおけるXAI技術の人間中心評価のための新しいフレームワークであるPASTA(Perceptual Assessment System for ExplanaTion of Artificial Intelligence)を紹介する。最初の重要な貢献は、4つの多様なデータセット(COCO、Pascal Parts、Cats Dogs Cars、MonumAI)に関するXAI説明の人間による評価です。このデータセットは、さまざまなXAIメソッドに対して堅牢な評価と比較を可能にする。 2つ目の大きな貢献は、説明の解釈可能性を評価するためのデータベースのメトリクスです。 PASTAデータセットにおける説明の人間の評価データベースに基づいて、人間の嗜好を模倣する。データセットとメトリクスにより、PASTAフレームワークは、XAI技術間の一貫性のある信頼性のある比較を提供する。さらに、我々のベンチマークでは、以前は未適応の側面である様々なモダリティ間の説明の比較が可能である。以上の結果から,人間は他の説明法よりもサリエンシマップが好まれる傾向が示唆された。さらに,本モデルを用いて数値シミュレーションした既存のXAI指標との相関が低いことを示す。

関連論文リスト

From Confusion to Clarity: ProtoScore - A Framework for Evaluating Prototype-Based XAI [2.9583904454291168]
プロトタイプベースのXAIメソッドをさまざまなデータタイプで評価するための堅牢なフレームワークであるProtoScoreを構築します。このフレームワークは、NautaなどのCo-12プロパティを統合することで、プロトタイプメソッドと他のXAIメソッドを効果的に比較することができる。
論文参考訳（メタデータ） (2025-11-11T15:38:29Z)
RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。 HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文参考訳（メタデータ） (2025-07-12T01:58:04Z)
VirtualXAI: A User-Centric Framework for Explainability Assessment Leveraging GPT-Generated Personas [0.07499722271664146]
eXplainable AI(XAI)の需要が増加し、AIモデルの解釈可能性、透明性、信頼性が向上した。仮想ペルソナによる定量的ベンチマークと質的ユーザアセスメントを統合したフレームワークを提案する。これにより、推定されたXAIスコアが得られ、与えられたシナリオに対して最適なAIモデルとXAIメソッドの両方にカスタマイズされたレコメンデーションが提供される。
論文参考訳（メタデータ） (2025-03-06T09:44:18Z)
A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文参考訳（メタデータ） (2024-12-24T12:54:19Z)
EXACT: Towards a platform for empirically benchmarking Machine Learning model explanation methods [1.6383837447674294]
本稿では、初期ベンチマークプラットフォームにおいて、様々なベンチマークデータセットと新しいパフォーマンス指標をまとめる。我々のデータセットには、クラス条件の特徴に対する真実の説明が組み込まれています。このプラットフォームは、それらが生成する説明の品質において、ポストホックなXAIメソッドのパフォーマンスを評価する。
論文参考訳（メタデータ） (2024-05-20T14:16:06Z)
A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文参考訳（メタデータ） (2024-05-02T13:48:37Z)
Precise Benchmarking of Explainable AI Attribution Methods [0.0]
本稿では,最新のXAI属性手法のベンチマークのための新しい評価手法を提案する。提案手法は, 基礎的真理の説明を伴う合成分類モデルから成り立っている。実験の結果, Guided-Backprop 法と Smoothgrad XAI 法の性能に関する新たな知見が得られた。
論文参考訳（メタデータ） (2023-08-06T17:03:32Z)
Towards a Comprehensive Human-Centred Evaluation Framework for Explainable AI [1.7222662622390634]
本稿では,レコメンデータシステムに使用されるユーザ中心評価フレームワークを適用することを提案する。我々は、説明的側面、説明的特性を要約し、それらの関係を示し、これらの特性を測定する分類指標を統合する。
論文参考訳（メタデータ） (2023-07-31T09:20:16Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Explaining Explainability: Towards Deeper Actionable Insights into Deep Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2023-06-14T23:24:01Z)
An Experimental Investigation into the Evaluation of Explainability Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文参考訳（メタデータ） (2023-05-25T08:07:07Z)
A System's Approach Taxonomy for User-Centred XAI: A Survey [0.6882042556551609]
本稿では,一般システム理論の原理に基づく総合的,包括的でユーザ中心のXAI分類法を提案する。これは、開発者とエンドユーザの両方を含むすべてのユーザタイプに対するXAIアプローチの適切性を評価する基盤を提供する。
論文参考訳（メタデータ） (2023-03-06T00:50:23Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Connecting Algorithmic Research and Usage Contexts: A Perspective of Contextualized Evaluation for Explainable AI [65.44737844681256]
説明可能なAI(XAI)を評価する方法に関するコンセンサスの欠如は、この分野の進歩を妨げる。このギャップを埋める一つの方法は、異なるユーザ要求を考慮に入れた評価方法を開発することである、と我々は主張する。
論文参考訳（メタデータ） (2022-06-22T05:17:33Z)
Data Representing Ground-Truth Explanations to Evaluate XAI Methods [0.0]
現在、説明可能な人工知能(XAI)手法は、主に解釈可能な機械学習(IML)研究に由来するアプローチで評価されている。本稿では,XAI手法の精度を評価するために用いられる正準方程式を用いた説明法を提案する。
論文参考訳（メタデータ） (2020-11-18T16:54:53Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)
Weakly-Supervised Aspect-Based Sentiment Analysis via Joint Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。 We learn sentiment, aspects> joint topic embeddeds in the word embedding space。次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文参考訳（メタデータ） (2020-10-13T21:33:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。