論文の概要: Towards a Unified Framework for Evaluating Explanations
- arxiv url: http://arxiv.org/abs/2405.14016v2
- Date: Sun, 14 Jul 2024 01:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 00:36:09.269387
- Title: Towards a Unified Framework for Evaluating Explanations
- Title(参考訳): 説明の統一化に向けて
- Authors: Juan D. Pinto, Luc Paquette,
- Abstract要約: 我々は、モデルと利害関係者の間の仲介者として、本質的に解釈可能なモデルであれ、不透明なブラックボックスモデルであれ、説明が役立ちます。
本稿では,学習者の行動を予測するための解釈可能なニューラルネットワークの例を用いて,これらの基準と具体的な評価手法について述べる。
- 参考スコア(独自算出の注目度): 0.6138671548064356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The challenge of creating interpretable models has been taken up by two main research communities: ML researchers primarily focused on lower-level explainability methods that suit the needs of engineers, and HCI researchers who have more heavily emphasized user-centered approaches often based on participatory design methods. This paper reviews how these communities have evaluated interpretability, identifying overlaps and semantic misalignments. We propose moving towards a unified framework of evaluation criteria and lay the groundwork for such a framework by articulating the relationships between existing criteria. We argue that explanations serve as mediators between models and stakeholders, whether for intrinsically interpretable models or opaque black-box models analyzed via post-hoc techniques. We further argue that useful explanations require both faithfulness and intelligibility. Explanation plausibility is a prerequisite for intelligibility, while stability is a prerequisite for explanation faithfulness. We illustrate these criteria, as well as specific evaluation methods, using examples from an ongoing study of an interpretable neural network for predicting a particular learner behavior.
- Abstract(参考訳): 解釈可能なモデルを作成するという課題は、2つの主要な研究コミュニティによって取り上げられている。ML研究者は主にエンジニアのニーズに合った低レベルの説明可能性手法に焦点を当てている。
本稿では,これらのコミュニティがどのように解釈可能性を評価し,重複と意味的不一致を識別したかをレビューする。
評価基準を統一した枠組みへと移行し,既存の基準間の関係を明確化し,そのような枠組みの基礎を築き上げることを提案する。
我々は、モデルと利害関係者の間の仲介者として、本質的に解釈可能なモデルやポストホック手法を用いて分析された不透明なブラックボックスモデルについて論じる。
さらに、有用な説明には忠実さと知性の両方が必要であると論じる。
説明可能性(Explaination plausibility)は知性のための前提条件であり、安定性は説明の忠実さの前提条件である。
本稿では,学習者の行動を予測するための解釈可能なニューラルネットワークの例を用いて,これらの基準と具体的な評価手法について述べる。
関連論文リスト
- On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Interpreting Inflammation Prediction Model via Tag-based Cohort Explanation [5.356481722174994]
本稿では,局所的特徴重要度スコアに基づいて,データセット内のコホートを識別する新しいフレームワークを提案する。
食品ベースの炎症予測モデル上での枠組みを評価し,その枠組みがドメイン知識に合致する信頼性のある説明を生成できることを実証した。
論文 参考訳(メタデータ) (2024-10-17T23:22:59Z) - Exposing Assumptions in AI Benchmarks through Cognitive Modelling [0.0]
文化AIベンチマークは、しばしば測定された構成物に関する暗黙の仮定に頼っており、不適切で明確な相互関係を持つ曖昧な定式化に繋がる。
構造方程式モデルとして定式化された明示的認知モデルを用いて,これらの仮定を明らかにする。
論文 参考訳(メタデータ) (2024-09-25T11:55:02Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Relational Concept Bottleneck Models [13.311396882130033]
概念ボトルネックモデル(CBM)は問題を解決するために設計されていない。
R-CBMは標準CBMとリレーショナルGNNの両方を表現できる。
特に,R-CBMが概念に基づく説明の生成を支援することを示す。
論文 参考訳(メタデータ) (2023-08-23T08:25:33Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - A Survey on the Robustness of Feature Importance and Counterfactual
Explanations [12.599872913953238]
本稿では,2種類の局所的説明の堅牢性を分析した研究について紹介する。
この調査は、既存のロバストネスの定義を統一することを目的としており、異なるロバストネスアプローチを分類するための分類を導入し、興味深い結果について議論している。
論文 参考訳(メタデータ) (2021-10-30T22:48:04Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z) - Benchmarking Machine Reading Comprehension: A Psychological Perspective [45.85089157315507]
機械学習理解(MRC)は自然言語理解のベンチマークとして注目されている。
MRCの従来のタスク設計は、モデル解釈以上の説明可能性に欠けていた。
本稿では,心理学と心理指標に基づくMRCデータセットの設計に関する理論的基礎を提供する。
論文 参考訳(メタデータ) (2020-04-04T11:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。