論文の概要: Towards a Unified Framework for Evaluating Explanations
- arxiv url: http://arxiv.org/abs/2405.14016v2
- Date: Sun, 14 Jul 2024 01:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 00:36:09.269387
- Title: Towards a Unified Framework for Evaluating Explanations
- Title(参考訳): 説明の統一化に向けて
- Authors: Juan D. Pinto, Luc Paquette,
- Abstract要約: 我々は、モデルと利害関係者の間の仲介者として、本質的に解釈可能なモデルであれ、不透明なブラックボックスモデルであれ、説明が役立ちます。
本稿では,学習者の行動を予測するための解釈可能なニューラルネットワークの例を用いて,これらの基準と具体的な評価手法について述べる。
- 参考スコア(独自算出の注目度): 0.6138671548064356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The challenge of creating interpretable models has been taken up by two main research communities: ML researchers primarily focused on lower-level explainability methods that suit the needs of engineers, and HCI researchers who have more heavily emphasized user-centered approaches often based on participatory design methods. This paper reviews how these communities have evaluated interpretability, identifying overlaps and semantic misalignments. We propose moving towards a unified framework of evaluation criteria and lay the groundwork for such a framework by articulating the relationships between existing criteria. We argue that explanations serve as mediators between models and stakeholders, whether for intrinsically interpretable models or opaque black-box models analyzed via post-hoc techniques. We further argue that useful explanations require both faithfulness and intelligibility. Explanation plausibility is a prerequisite for intelligibility, while stability is a prerequisite for explanation faithfulness. We illustrate these criteria, as well as specific evaluation methods, using examples from an ongoing study of an interpretable neural network for predicting a particular learner behavior.
- Abstract(参考訳): 解釈可能なモデルを作成するという課題は、2つの主要な研究コミュニティによって取り上げられている。ML研究者は主にエンジニアのニーズに合った低レベルの説明可能性手法に焦点を当てている。
本稿では,これらのコミュニティがどのように解釈可能性を評価し,重複と意味的不一致を識別したかをレビューする。
評価基準を統一した枠組みへと移行し,既存の基準間の関係を明確化し,そのような枠組みの基礎を築き上げることを提案する。
我々は、モデルと利害関係者の間の仲介者として、本質的に解釈可能なモデルやポストホック手法を用いて分析された不透明なブラックボックスモデルについて論じる。
さらに、有用な説明には忠実さと知性の両方が必要であると論じる。
説明可能性(Explaination plausibility)は知性のための前提条件であり、安定性は説明の忠実さの前提条件である。
本稿では,学習者の行動を予測するための解釈可能なニューラルネットワークの例を用いて,これらの基準と具体的な評価手法について述べる。
関連論文リスト
- Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Interpreting Inflammation Prediction Model via Tag-based Cohort Explanation [5.356481722174994]
本稿では,局所的特徴重要度スコアに基づいて,データセット内のコホートを識別する新しいフレームワークを提案する。
食品ベースの炎症予測モデル上での枠組みを評価し,その枠組みがドメイン知識に合致する信頼性のある説明を生成できることを実証した。
論文 参考訳(メタデータ) (2024-10-17T23:22:59Z) - Exposing Assumptions in AI Benchmarks through Cognitive Modelling [0.0]
文化AIベンチマークは、しばしば測定された構成物に関する暗黙の仮定に頼っており、不適切で明確な相互関係を持つ曖昧な定式化に繋がる。
構造方程式モデルとして定式化された明示的認知モデルを用いて,これらの仮定を明らかにする。
論文 参考訳(メタデータ) (2024-09-25T11:55:02Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Relational Concept Bottleneck Models [13.311396882130033]
概念ボトルネックモデル(CBM)は問題を解決するために設計されていない。
R-CBMは標準CBMとリレーショナルGNNの両方を表現できる。
特に,R-CBMが概念に基づく説明の生成を支援することを示す。
論文 参考訳(メタデータ) (2023-08-23T08:25:33Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - When Stability meets Sufficiency: Informative Explanations that do not Overwhelm [15.897648942908747]
入力の分類を正当化するためには、何が最小限に必要かを強調する特徴に基づく属性法を考える。
最小限の充足性は理解性に類似した魅力的な性質であるが、結果として生じる説明は、人間がモデルの局所的な振る舞いを理解して評価するには不十分であることが多い。
本稿では,与えられた入力に対して,安定かつ十分な説明のシーケンスを出力するPSEM(Path-Sufficient Explanations Method)を提案する。
論文 参考訳(メタデータ) (2021-09-13T16:06:10Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。