論文の概要: On the Faithfulness Measurements for Model Interpretations
- arxiv url: http://arxiv.org/abs/2104.08782v1
- Date: Sun, 18 Apr 2021 09:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 08:10:28.076458
- Title: On the Faithfulness Measurements for Model Interpretations
- Title(参考訳): モデル解釈における忠実性測定について
- Authors: Fan Yin, Zhouxing Shi, Cho-Jui Hsieh, Kai-Wei Chang
- Abstract要約: ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
- 参考スコア(独自算出の注目度): 100.2730234575114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed the emergence of a variety of post-hoc
interpretations that aim to uncover how natural language processing (NLP)
models make predictions. Despite the surge of new interpretations, it remains
an open problem how to define and quantitatively measure the faithfulness of
interpretations, i.e., to what extent they conform to the reasoning process
behind the model. To tackle these issues, we start with three criteria: the
removal-based criterion, the sensitivity of interpretations, and the stability
of interpretations, that quantify different notions of faithfulness, and
propose novel paradigms to systematically evaluate interpretations in NLP. Our
results show that the performance of interpretations under different criteria
of faithfulness could vary substantially. Motivated by the desideratum of these
faithfulness notions, we introduce a new class of interpretation methods that
adopt techniques from the adversarial robustness domain. Empirical results show
that our proposed methods achieve top performance under all three criteria.
Along with experiments and analysis on both the text classification and the
dependency parsing tasks, we come to a more comprehensive understanding of the
diverse set of interpretations.
- Abstract(参考訳): 近年、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とした、様々なポストホック解釈の出現を目撃している。
新しい解釈の急増にもかかわらず、モデルの背後にある推論プロセスにどの程度準拠するかという解釈の忠実さを定義し、定量的に測定する方法は、未解決の問題のままである。
これらの問題に取り組むために,まず,削除基準,解釈の感度,解釈の安定性,忠実性の異なる概念を定量化する,nlpの解釈を体系的に評価するための新しいパラダイムを提案する。
以上の結果から,異なる信頼の基準下での解釈性能は著しく異なる可能性が示唆された。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的ロバストネス領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
実験の結果,提案手法は3つの基準すべてで最高性能を達成できた。
テキスト分類と係り受け解析のタスクに関する実験と分析と合わせて,多種多様な解釈の集合をより包括的に理解する。
関連論文リスト
- Ensemble Interpretation: A Unified Method for Interpretable Machine
Learning [1.276129213205911]
本稿では,新しい解釈可能な手法であるアンサンブル解釈について述べる。
実験の結果、アンサンブルの解釈はより安定しており、人間の経験や認知と一致していることがわかった。
アプリケーションとして,特徴選択にアンサンブル解釈を用い,それに対応する学習モデルの一般化性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-11T09:51:24Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - FICNN: A Framework for the Interpretation of Deep Convolutional Neural
Networks [0.0]
本研究の目的は,視覚データから学習したCNNモデルを対象とした解釈手法の研究のためのフレームワークを提案することである。
提案する要因のごく一部と組み合わせが実際に研究されていることを,我々のフレームワークが強調する。
論文 参考訳(メタデータ) (2023-05-17T10:59:55Z) - A Fine-grained Interpretability Evaluation Benchmark for Neural NLP [44.08113828762984]
このベンチマークでは、感情分析、テキスト類似性、読解の3つのNLPタスクをカバーしている。
十分にコンパクトで包括的に注釈付けされたトークンレベルの合理性を提供します。
3つのサリエンシ手法を用いた3つの典型的なモデルについて実験を行い、その強度と弱さを解釈可能性の観点から明らかにした。
論文 参考訳(メタデータ) (2022-05-23T07:37:04Z) - Evaluating Saliency Methods for Neural Language Models [9.309351023703018]
サリエンシ法はニューラルネットワーク予測の解釈に広く用いられている。
同じモデルによって行われた同じ予測の解釈でさえ、異なるサリエンシー方法のバリエーションは一致しません。
我々は,NLPモデルの基本カテゴリであるニューラル言語モデルに基づいて,サリエンシ手法の包括的,定量的評価を行う。
論文 参考訳(メタデータ) (2021-04-12T21:19:48Z) - Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond [49.93153180169685]
一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。
我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。
信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
論文 参考訳(メタデータ) (2021-03-19T08:40:30Z) - Are Interpretations Fairly Evaluated? A Definition Driven Pipeline for
Post-Hoc Interpretability [54.85658598523915]
我々は,解釈の忠実性を評価する前に,解釈を明確に定義することを提案する。
解釈手法は,ある評価基準の下で異なる性能を示すが,その差は解釈の品質や忠実さから生じるものではない。
論文 参考訳(メタデータ) (2020-09-16T06:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。