論文の概要: Evaluating Saliency Methods for Neural Language Models
- arxiv url: http://arxiv.org/abs/2104.05824v1
- Date: Mon, 12 Apr 2021 21:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:35:31.992367
- Title: Evaluating Saliency Methods for Neural Language Models
- Title(参考訳): ニューラルネットワークモデルのための相性評価法
- Authors: Shuoyang Ding, Philipp Koehn
- Abstract要約: サリエンシ法はニューラルネットワーク予測の解釈に広く用いられている。
同じモデルによって行われた同じ予測の解釈でさえ、異なるサリエンシー方法のバリエーションは一致しません。
我々は,NLPモデルの基本カテゴリであるニューラル言語モデルに基づいて,サリエンシ手法の包括的,定量的評価を行う。
- 参考スコア(独自算出の注目度): 9.309351023703018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Saliency methods are widely used to interpret neural network predictions, but
different variants of saliency methods often disagree even on the
interpretations of the same prediction made by the same model. In these cases,
how do we identify when are these interpretations trustworthy enough to be used
in analyses? To address this question, we conduct a comprehensive and
quantitative evaluation of saliency methods on a fundamental category of NLP
models: neural language models. We evaluate the quality of prediction
interpretations from two perspectives that each represents a desirable property
of these interpretations: plausibility and faithfulness. Our evaluation is
conducted on four different datasets constructed from the existing human
annotation of syntactic and semantic agreements, on both sentence-level and
document-level. Through our evaluation, we identified various ways saliency
methods could yield interpretations of low quality. We recommend that future
work deploying such methods to neural language models should carefully validate
their interpretations before drawing insights.
- Abstract(参考訳): saliencyメソッドはニューラルネットワークの予測を解釈するために広く使われているが、saliencyメソッドの異なる変種は、同じモデルによってなされる同じ予測の解釈にもよく一致しない。
これらのケースでは、分析に使用するのに十分な信頼度があるのか、どのように判断するか?
この問題に対処するため,我々はNLPモデルの基本カテゴリであるニューラル言語モデルに基づいて,サリエンシ手法の包括的,定量的評価を行う。
予測解釈の質を2つの視点から評価し、それぞれがこれらの解釈の望ましい性質である可能性と忠実性を表す。
本評価は,既存の構文的および意味的合意の人間の注釈から構築した4つの異なるデータセットに基づいて,文レベルと文書レベルの両方で実施する。
評価を通して, 塩分法が低品質の解釈をもたらす様々な方法を特定した。
このような手法をニューラルネットワークモデルにデプロイする作業は、洞察を引き出す前に、解釈を慎重に検証することを推奨する。
関連論文リスト
- Constructing Word-Context-Coupled Space Aligned with Associative
Knowledge Relations for Interpretable Language Modeling [0.0]
事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。
解釈不能なニューラル表現と解釈不能な統計論理のアライメント処理を導入することで,ワードコンテキスト結合空間(W2CSpace)を提案する。
我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力を実現することができる。
論文 参考訳(メタデータ) (2023-05-19T09:26:02Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - A Fine-grained Interpretability Evaluation Benchmark for Neural NLP [44.08113828762984]
このベンチマークでは、感情分析、テキスト類似性、読解の3つのNLPタスクをカバーしている。
十分にコンパクトで包括的に注釈付けされたトークンレベルの合理性を提供します。
3つのサリエンシ手法を用いた3つの典型的なモデルについて実験を行い、その強度と弱さを解釈可能性の観点から明らかにした。
論文 参考訳(メタデータ) (2022-05-23T07:37:04Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Hierarchical Interpretation of Neural Text Classification [31.95426448656938]
本稿では,Hintと呼ばれる階層型インタプリタ型ニューラルテキスト分類器を提案する。
レビューデータセットとニュースデータセットの両方の実験結果から,提案手法は既存の最先端テキスト分類器と同等のテキスト分類結果が得られることが示された。
論文 参考訳(メタデータ) (2022-02-20T11:15:03Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - On the Lack of Robust Interpretability of Neural Text Classifiers [14.685352584216757]
本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。
どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
論文 参考訳(メタデータ) (2021-06-08T18:31:02Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond [49.93153180169685]
一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。
我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。
信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
論文 参考訳(メタデータ) (2021-03-19T08:40:30Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。