論文の概要: Do We Need Another Explainable AI Method? Toward Unifying Post-hoc XAI
Evaluation Methods into an Interactive and Multi-dimensional Benchmark
- arxiv url: http://arxiv.org/abs/2207.14160v2
- Date: Tue, 4 Oct 2022 10:45:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 04:02:04.435254
- Title: Do We Need Another Explainable AI Method? Toward Unifying Post-hoc XAI
Evaluation Methods into an Interactive and Multi-dimensional Benchmark
- Title(参考訳): 説明可能なAIメソッドは必要か?
ポストホックxai評価法をインタラクティブ・多次元ベンチマークに統一する
- Authors: Mohamed Karim Belaid, Eyke H\"ullermeier, Maximilian Rabus, Ralf
Krestel
- Abstract要約: 我々は,xAIアルゴリズムに適用された排他的機能テスト手法を統一するベンチマークであるComparce-xAIを提案する。
このベンチマークは、xAIメソッドを評価する複雑さを3つの階層的なスコアリングにカプセル化する。
インタラクティブなユーザインターフェースは、xAI結果の解釈におけるエラーの軽減に役立つ。
- 参考スコア(独自算出の注目度): 6.511859672210113
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, Explainable AI (xAI) attracted a lot of attention as various
countries turned explanations into a legal right. xAI allows for improving
models beyond the accuracy metric by, e.g., debugging the learned pattern and
demystifying the AI's behavior. The widespread use of xAI brought new
challenges. On the one hand, the number of published xAI algorithms underwent a
boom, and it became difficult for practitioners to select the right tool. On
the other hand, some experiments did highlight how easy data scientists could
misuse xAI algorithms and misinterpret their results. To tackle the issue of
comparing and correctly using feature importance xAI algorithms, we propose
Compare-xAI, a benchmark that unifies all exclusive functional testing methods
applied to xAI algorithms. We propose a selection protocol to shortlist
non-redundant functional tests from the literature, i.e., each targeting a
specific end-user requirement in explaining a model. The benchmark encapsulates
the complexity of evaluating xAI methods into a hierarchical scoring of three
levels, namely, targeting three end-user groups: researchers, practitioners,
and laymen in xAI. The most detailed level provides one score per test. The
second level regroups tests into five categories (fidelity, fragility,
stability, simplicity, and stress tests). The last level is the aggregated
comprehensibility score, which encapsulates the ease of correctly interpreting
the algorithm's output in one easy to compare value. Compare-xAI's interactive
user interface helps mitigate errors in interpreting xAI results by quickly
listing the recommended xAI solutions for each ML task and their current
limitations. The benchmark is made available at
https://karim-53.github.io/cxai/
- Abstract(参考訳): 近年、説明可能なAI(xAI)は、さまざまな国で説明が法的権利に変わったため、多くの注目を集めている。
xAIは、学習したパターンをデバッグし、AIの振る舞いを模倣することで、精度メトリックを超えてモデルを改善することができる。
xAIの普及は新たな課題をもたらした。
一方で、xaiアルゴリズムの公開数が急増し、実践者が適切なツールを選択することが困難になった。
一方、いくつかの実験では、データサイエンティストがxAIアルゴリズムを誤用し、結果を誤解釈することの容易さを強調した。
特徴量xaiアルゴリズムを正しく比較・活用する問題に取り組むため,我々は,xaiアルゴリズムに適用されるすべての排他的機能テスト手法を統合するベンチマークであるcompe-xaiを提案する。
論文から非冗長な機能テスト,すなわちモデルの説明において,特定のエンドユーザ要求を対象とする選択プロトコルを提案する。
このベンチマークは、xAIメソッドを評価する複雑さを3つの階層的なスコア(すなわち、xAIの研究者、実践者、およびレイメンの3つのエンドユーザグループ)にカプセル化する。
最も詳細なレベルは、テスト毎に1つのスコアを提供する。
第2段階はテストを5つのカテゴリ(忠実さ、脆弱さ、安定性、単純さ、ストレステスト)に分類する。
最後のレベルは集約された理解度スコアであり、これはアルゴリズムの出力を1つの簡単に比較できる値で正しく解釈することの容易さをカプセル化する。
Compare-xAIのインタラクティブなユーザインターフェースは、各MLタスクとその現在の制限に対する推奨のxAIソリューションを素早くリストすることによって、xAI結果の解釈におけるエラーを軽減する。
ベンチマークはhttps://karim-53.github.io/cxai/で利用可能である。
関連論文リスト
- Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation? [90.30635552818875]
9種類の腹部臓器の大規模共同セグメント化ベンチマークであるTouchstoneを報告する。
このベンチマークは、世界中の76の病院から5,195回のCTスキャンと、11の病院から5,903回のCTスキャンに基づいています。
私たちは19のAIアルゴリズムの発明者14人を招待してアルゴリズムをトレーニングしましたが、私たちのチームは第三者として、3つのテストセットでこれらのアルゴリズムを独立して評価しました。
論文 参考訳(メタデータ) (2024-11-06T05:09:34Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics [10.045644410833402]
LATECは、20の異なる指標を用いて17の顕著なXAI手法を批判的に評価する大規模なベンチマークである。
信頼性の低いランキングに繋がるメトリクスの衝突リスクを実証し、その結果、より堅牢な評価手法を提案する。
LATECは将来のXAI研究における役割を強化し、326kのサリエンシマップと378kのメトリクススコアを(メタ評価)データセットとして公開している。
論文 参考訳(メタデータ) (2024-09-25T09:07:46Z) - An Item Response Theory-based R Module for Algorithm Portfolio Analysis [2.8642825441965645]
本稿では,AIRT-Moduleと呼ばれるアルゴリズムポートフォリオ評価のための項目応答理論に基づく分析ツールを提案する。
IRTをアルゴリズムの評価に適用すると、AIRT-Module は Shiny Web アプリケーションと R パッケージの Airt を含む。
アルゴリズムの長所と短所は、テストインスタンスの難易度スペクトルを用いて可視化される。
論文 参考訳(メタデータ) (2024-08-26T05:31:46Z) - Precise Benchmarking of Explainable AI Attribution Methods [0.0]
本稿では,最新のXAI属性手法のベンチマークのための新しい評価手法を提案する。
提案手法は, 基礎的真理の説明を伴う合成分類モデルから成り立っている。
実験の結果, Guided-Backprop 法と Smoothgrad XAI 法の性能に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-08-06T17:03:32Z) - An Experimental Investigation into the Evaluation of Explainability
Methods [60.54170260771932]
この研究は、9つの最先端XAI法と3つのダミー法(例えば、ランダム・サリエンシ・マップ)に適用された14の異なるメトリクスを比較した。
実験の結果、これらの指標のどれが高い相関関係を示し、潜在的な冗長性を示している。
論文 参考訳(メタデータ) (2023-05-25T08:07:07Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Understanding User Preferences in Explainable Artificial Intelligence: A Survey and a Mapping Function Proposal [0.0]
本研究は、説明可能な機械学習(XML)における既存の研究の徹底的なレビューを行う。
我々の主な目的は、XMLの領域内でXAIメソッドの分類を提供することです。
本稿では,ユーザとその所望のプロパティを考慮に入れたマッピング関数を提案し,XAI手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T01:06:38Z) - Responsibility: An Example-based Explainable AI approach via Training
Process Inspection [1.4610038284393165]
我々は、特定の決定に対して最も責任あるトレーニング例を特定する新しいXAIアプローチを提案する。
この例は、"これが私が(AI)学んだことであり、それが私をそのようにしました"、という説明として示されます。
以上の結果から,ヒューマンエンドユーザとセカンダリMLモデルの両方において,責任が精度の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-09-07T19:30:01Z) - Connecting Algorithmic Research and Usage Contexts: A Perspective of
Contextualized Evaluation for Explainable AI [65.44737844681256]
説明可能なAI(XAI)を評価する方法に関するコンセンサスの欠如は、この分野の進歩を妨げる。
このギャップを埋める一つの方法は、異なるユーザ要求を考慮に入れた評価方法を開発することである、と我々は主張する。
論文 参考訳(メタデータ) (2022-06-22T05:17:33Z) - A User-Centred Framework for Explainable Artificial Intelligence in
Human-Robot Interaction [70.11080854486953]
本稿では,XAIのソーシャル・インタラクティブな側面に着目したユーザ中心型フレームワークを提案する。
このフレームワークは、エキスパートでないユーザのために考えられた対話型XAIソリューションのための構造を提供することを目的としている。
論文 参考訳(メタデータ) (2021-09-27T09:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。