論文の概要: Understanding Interpretability by generalized distillation in Supervised
Classification
- arxiv url: http://arxiv.org/abs/2012.03089v1
- Date: Sat, 5 Dec 2020 17:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 15:05:53.583315
- Title: Understanding Interpretability by generalized distillation in Supervised
Classification
- Title(参考訳): 監視分類における一般化蒸留による解釈可能性の理解
- Authors: Adit Agarwal and Dr. K.K. Shukla and Arjan Kuijper and Anirban
Mukhopadhyay
- Abstract要約: 最近の解釈戦略は、複雑な機械学習モデルの根底にある決定メカニズムの人間の理解に焦点を当てている。
本稿では,他のMLモデルと相対的に定義される解釈・蒸留式を提案する。
MNIST、Fashion-MNIST、Stanford40データセットに関する提案フレームワークの評価を行った。
- 参考スコア(独自算出の注目度): 3.5473853445215897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to interpret decisions taken by Machine Learning (ML) models is
fundamental to encourage trust and reliability in different practical
applications. Recent interpretation strategies focus on human understanding of
the underlying decision mechanisms of the complex ML models. However, these
strategies are restricted by the subjective biases of humans. To dissociate
from such human biases, we propose an interpretation-by-distillation
formulation that is defined relative to other ML models. We generalize the
distillation technique for quantifying interpretability, using an
information-theoretic perspective, removing the role of ground-truth from the
definition of interpretability. Our work defines the entropy of supervised
classification models, providing bounds on the entropy of Piece-Wise Linear
Neural Networks (PWLNs), along with the first theoretical bounds on the
interpretability of PWLNs. We evaluate our proposed framework on the MNIST,
Fashion-MNIST and Stanford40 datasets and demonstrate the applicability of the
proposed theoretical framework in different supervised classification
scenarios.
- Abstract(参考訳): 機械学習(ML)モデルで決定を解釈する能力は、異なる実践的アプリケーションにおける信頼性と信頼性を促進するのに不可欠である。
最近の解釈戦略は、複雑なMLモデルの根底にある決定機構の人間の理解に焦点を当てている。
しかし、これらの戦略は人間の主観バイアスによって制限されている。
このような人間のバイアスから解離するために、他のMLモデルと比較して定義された解釈・蒸留の定式化を提案する。
本稿では,情報理論の観点から解釈可能性の定量化のための蒸留手法を一般化し,解釈可能性の定義から地下構造の役割を除去する。
我々の研究は教師付き分類モデルのエントロピーを定義し、Piece-Wise Linear Neural Networks (PWLNs)のエントロピーとPWLNの解釈可能性に関する最初の理論的境界を提供する。
提案するmnist, fashion-mnist, stanford40データセットの枠組みを評価し,異なる教師付き分類シナリオにおける提案手法の適用性を示す。
関連論文リスト
- Self-supervised Interpretable Concept-based Models for Text Classification [9.340843984411137]
本稿では,自己教師型解釈可能な概念埋め込みモデル(ICEM)を提案する。
我々は,大規模言語モデルの一般化能力を活用し,概念ラベルを自己管理的に予測する。
ICEMは、完全に教師されたコンセプトベースモデルやエンドツーエンドのブラックボックスモデルと同じようなパフォーマンスを達成するために、自己管理的な方法でトレーニングすることができる。
論文 参考訳(メタデータ) (2024-06-20T14:04:53Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Scientific Inference With Interpretable Machine Learning: Analyzing Models to Learn About Real-World Phenomena [4.312340306206884]
解釈可能な機械学習は、モデルを論理的に分析して解釈を導出することで解を提供する。
現在のIML研究は、科学的推論にMLモデルを活用するのではなく、MLモデルの監査に重点を置いている。
本稿では、モデルだけでなく、その表現する現象を照らし出すIMLメソッドを定式化した「プロパティ記述子」を設計するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-11T10:13:21Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - General Pitfalls of Model-Agnostic Interpretation Methods for Machine
Learning Models [1.025459377812322]
我々は、間違った文脈で解釈技術を使用するなど、機械学習モデル解釈の多くの一般的な落とし穴を強調した。
平均モデル行動を記述するグローバルメソッドの落とし穴に注目するが、個々の予測を説明するローカルメソッドにも多くの落とし穴が適用される。
論文 参考訳(メタデータ) (2020-07-08T14:02:56Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z) - Benchmarking Machine Reading Comprehension: A Psychological Perspective [45.85089157315507]
機械学習理解(MRC)は自然言語理解のベンチマークとして注目されている。
MRCの従来のタスク設計は、モデル解釈以上の説明可能性に欠けていた。
本稿では,心理学と心理指標に基づくMRCデータセットの設計に関する理論的基礎を提供する。
論文 参考訳(メタデータ) (2020-04-04T11:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。