論文の概要: A Comparative Study of Faithfulness Metrics for Model Interpretability
Methods
- arxiv url: http://arxiv.org/abs/2204.05514v1
- Date: Tue, 12 Apr 2022 04:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 12:16:41.797509
- Title: A Comparative Study of Faithfulness Metrics for Model Interpretability
Methods
- Title(参考訳): モデル解釈可能性法における忠実度指標の比較研究
- Authors: Chun Sik Chan, Huanqi Kong, Guanqing Liang
- Abstract要約: 診断性と時間的複雑さという2つの評価次元を導入する。
実験結果によると, 充足度と包括度は, 他の忠実度よりも診断性が高く, 時間的複雑さも低いことがわかった。
- 参考スコア(独自算出の注目度): 3.7200349581269996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpretation methods to reveal the internal reasoning processes behind
machine learning models have attracted increasing attention in recent years. To
quantify the extent to which the identified interpretations truly reflect the
intrinsic decision-making mechanisms, various faithfulness evaluation metrics
have been proposed. However, we find that different faithfulness metrics show
conflicting preferences when comparing different interpretations. Motivated by
this observation, we aim to conduct a comprehensive and comparative study of
the widely adopted faithfulness metrics. In particular, we introduce two
assessment dimensions, namely diagnosticity and time complexity. Diagnosticity
refers to the degree to which the faithfulness metric favours relatively
faithful interpretations over randomly generated ones, and time complexity is
measured by the average number of model forward passes. According to the
experimental results, we find that sufficiency and comprehensiveness metrics
have higher diagnosticity and lower time complexity than the other faithfulness
metric
- Abstract(参考訳): 近年,機械学習モデルの背後にある内部推論プロセスを明らかにする解釈手法が注目されている。
識別された解釈が本質的な意思決定機構を真に反映する程度を定量化するために,様々な忠実性評価指標が提案されている。
しかし、異なる忠実度指標は異なる解釈を比較するときに相反する好みを示す。
本研究の目的は,広く採用されている忠実度尺度を包括的かつ比較研究することである。
特に,診断と時間複雑性という2つの評価次元を導入する。
診断性は、忠実度メートル法がランダムに生成されたものよりも比較的忠実な解釈を好む程度を指し、時間複雑性はモデルの前方通過の平均数によって測定される。
実験結果によると,満足度と包括性指標は,他の忠実度指標よりも診断性が高く,時間の複雑さが低いことがわかった。
関連論文リスト
- Unified Uncertainty Estimation for Cognitive Diagnosis Models [70.46998436898205]
本稿では,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。
診断パラメータの不確かさをデータ・アスペクトとモデル・アスペクトに分解する。
本手法は有効であり,認知診断の不確実性に関する有用な知見を提供することができる。
論文 参考訳(メタデータ) (2024-03-09T13:48:20Z) - Trade-off Between Dependence and Complexity for Nonparametric Learning
-- an Empirical Process Approach [10.27974860479791]
データが時間的依存を示す多くのアプリケーションでは、対応する経験的プロセスは理解されていない。
標準的な$beta/rho$-mixingの仮定の下では、経験過程の期待上限に一般化する。
長距離依存下であっても、i.d.設定と同じ速度で達成できることが示される。
論文 参考訳(メタデータ) (2024-01-17T05:08:37Z) - Valid causal inference with unobserved confounding in high-dimensional
settings [0.0]
半パラメトリックな推論が、観測されていない共同創設者や高次元ニュアンスモデルの存在下でどのように得られるかを示す。
本研究では、観測不能な共振を許容する不確実区間を提案し、観測不能な共振の量が小さい場合、その結果の推論が有効であることを示す。
論文 参考訳(メタデータ) (2024-01-12T13:21:20Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Evaluating generative audio systems and their metrics [80.97828572629093]
本報告では,従来提案されていた音声再建のための目標尺度のセットと,聴取研究を併用して,最先端のアプローチについて検討する。
その結果、現在使われている客観的指標は、現在のシステムの知覚的品質を記述するのに不十分であることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T21:48:34Z) - Hierarchical Decision Ensembles- An inferential framework for uncertain
Human-AI collaboration in forensic examinations [0.8122270502556371]
モデルとその出力を評価するための推論フレームワークを提案する。
このフレームワークは、ドメイン固有の知識と予測モデル結果のギャップを埋めることによって、法医学の専門家への信頼を校正するように設計されている。
論文 参考訳(メタデータ) (2021-10-31T08:07:43Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Exploiting Uncertainties from Ensemble Learners to Improve
Decision-Making in Healthcare AI [13.890527275215284]
機械学習(ML)では、モデルパフォーマンスを改善し、意思決定リスクを軽減するために、アンサンブルラーニングが広く採用されている。
アンサンブル平均は,決定のための不確実性指標として,アンサンブル変動に対して好ましいことを示す。
論文 参考訳(メタデータ) (2020-07-12T18:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。