論文の概要: From Confusion to Clarity: ProtoScore - A Framework for Evaluating Prototype-Based XAI
- arxiv url: http://arxiv.org/abs/2511.08361v1
- Date: Wed, 12 Nov 2025 01:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.777443
- Title: From Confusion to Clarity: ProtoScore - A Framework for Evaluating Prototype-Based XAI
- Title(参考訳): 融合から明確化: ProtoScore - プロトタイプベースのXAIを評価するフレームワーク
- Authors: Helena Monke, Benjamin Sae-Chew, Benjamin Fresz, Marco F. Huber,
- Abstract要約: プロトタイプベースのXAIメソッドをさまざまなデータタイプで評価するための堅牢なフレームワークであるProtoScoreを構築します。
このフレームワークは、NautaなどのCo-12プロパティを統合することで、プロトタイプメソッドと他のXAIメソッドを効果的に比較することができる。
- 参考スコア(独自算出の注目度): 2.9583904454291168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The complexity and opacity of neural networks (NNs) pose significant challenges, particularly in high-stakes fields such as healthcare, finance, and law, where understanding decision-making processes is crucial. To address these issues, the field of explainable artificial intelligence (XAI) has developed various methods aimed at clarifying AI decision-making, thereby facilitating appropriate trust and validating the fairness of outcomes. Among these methods, prototype-based explanations offer a promising approach that uses representative examples to elucidate model behavior. However, a critical gap exists regarding standardized benchmarks to objectively compare prototype-based XAI methods, especially in the context of time series data. This lack of reliable benchmarks results in subjective evaluations, hindering progress in the field. We aim to establish a robust framework, ProtoScore, for assessing prototype-based XAI methods across different data types with a focus on time series data, facilitating fair and comprehensive evaluations. By integrating the Co-12 properties of Nauta et al., this framework allows for effectively comparing prototype methods against each other and against other XAI methods, ultimately assisting practitioners in selecting appropriate explanation methods while minimizing the costs associated with user studies. All code is publicly available at https://github.com/HelenaM23/ProtoScore .
- Abstract(参考訳): ニューラルネットワーク(NN)の複雑さと不透明さは、特に意思決定プロセスの理解が不可欠である医療、金融、法といった高度な分野において、重大な課題を引き起こす。
これらの問題に対処するために、説明可能な人工知能(XAI)の分野は、AI意思決定を明確にすることを目的とした様々な手法を開発し、それによって適切な信頼と結果の公正性を検証する。
これらの手法のうち、プロトタイプに基づく説明は、モデル行動の解明に代表例を用いる有望なアプローチを提供する。
しかし、特に時系列データの文脈において、プロトタイプベースのXAI手法を客観的に比較するために標準化されたベンチマークに関して重要なギャップが存在する。
この信頼性のあるベンチマークの欠如は主観的な評価をもたらし、この分野の進歩を妨げる。
我々は,時系列データに着目したプロトタイプベースのXAIメソッドをさまざまなデータタイプで評価し,公平かつ包括的な評価を容易にするための,堅牢なフレームワークであるProtoScoreを確立することを目指している。
ナウタ等のCo-12特性を統合することにより、プロトタイプメソッドと他のXAIメソッドとを効果的に比較し、最終的には、ユーザスタディに関連するコストを最小化しつつ、適切な説明方法を選択する実践者を支援する。
すべてのコードはhttps://github.com/HelenaM23/ProtoScoreで公開されている。
関連論文リスト
- SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - POGEMA: A Benchmark Platform for Cooperative Multi-Agent Pathfinding [76.67608003501479]
POGEMAは、学習のための高速環境、問題インスタンスジェネレータ、可視化ツールキットを含む、総合的なツールセットである。
また、プライマリ評価指標に基づいて計算されるドメイン関連メトリクスの範囲を規定する評価プロトコルを導入し、定義する。
この比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含む。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - EXACT: Towards a platform for empirically benchmarking Machine Learning model explanation methods [1.6383837447674294]
本稿では、初期ベンチマークプラットフォームにおいて、様々なベンチマークデータセットと新しいパフォーマンス指標をまとめる。
我々のデータセットには、クラス条件の特徴に対する真実の説明が組み込まれています。
このプラットフォームは、それらが生成する説明の品質において、ポストホックなXAIメソッドのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-05-20T14:16:06Z) - Understanding the (Extra-)Ordinary: Validating Deep Model Decisions with Prototypical Concept-based Explanations [13.60538902487872]
本稿では, 実例的(地域的)かつクラス的(グローバル的)な意思決定戦略をプロトタイプを通じて伝達する, ポストホックなコンセプトベースXAIフレームワークを提案する。
我々は,3つのデータセットにまたがるアウト・オブ・ディストリビューション・サンプル,突発的なモデル行動,データ品質問題同定におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-28T10:53:26Z) - Precise Benchmarking of Explainable AI Attribution Methods [0.0]
本稿では,最新のXAI属性手法のベンチマークのための新しい評価手法を提案する。
提案手法は, 基礎的真理の説明を伴う合成分類モデルから成り立っている。
実験の結果, Guided-Backprop 法と Smoothgrad XAI 法の性能に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-08-06T17:03:32Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。