論文の概要: Self-Explaining Structures Improve NLP Models
- arxiv url: http://arxiv.org/abs/2012.01786v2
- Date: Wed, 9 Dec 2020 02:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 15:00:35.339868
- Title: Self-Explaining Structures Improve NLP Models
- Title(参考訳): NLPモデルを改善する自己説明構造
- Authors: Zijun Sun, Chun Fan, Qinghong Han, Xiaofei Sun, Yuxian Meng, Fei Wu
and Jiwei Li
- Abstract要約: 我々は,NLPにおけるディープラーニングモデルのための,シンプルで汎用的で効果的な自己説明フレームワークを提案する。
自己説明的特徴のニューラルモデルでは、自己説明的な性質がなければ、それよりも優れたパフォーマンスが得られる。
- 参考スコア(独自算出の注目度): 25.292847674586614
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing approaches to explaining deep learning models in NLP usually suffer
from two major drawbacks: (1) the main model and the explaining model are
decoupled: an additional probing or surrogate model is used to interpret an
existing model, and thus existing explaining tools are not self-explainable;
(2) the probing model is only able to explain a model's predictions by
operating on low-level features by computing saliency scores for individual
words but are clumsy at high-level text units such as phrases, sentences, or
paragraphs. To deal with these two issues, in this paper, we propose a simple
yet general and effective self-explaining framework for deep learning models in
NLP. The key point of the proposed framework is to put an additional layer, as
is called by the interpretation layer, on top of any existing NLP model. This
layer aggregates the information for each text span, which is then associated
with a specific weight, and their weighted combination is fed to the softmax
function for the final prediction. The proposed model comes with the following
merits: (1) span weights make the model self-explainable and do not require an
additional probing model for interpretation; (2) the proposed model is general
and can be adapted to any existing deep learning structures in NLP; (3) the
weight associated with each text span provides direct importance scores for
higher-level text units such as phrases and sentences. We for the first time
show that interpretability does not come at the cost of performance: a neural
model of self-explaining features obtains better performances than its
counterpart without the self-explaining nature, achieving a new SOTA
performance of 59.1 on SST-5 and a new SOTA performance of 92.3 on SNLI.
- Abstract(参考訳): Existing approaches to explaining deep learning models in NLP usually suffer from two major drawbacks: (1) the main model and the explaining model are decoupled: an additional probing or surrogate model is used to interpret an existing model, and thus existing explaining tools are not self-explainable; (2) the probing model is only able to explain a model's predictions by operating on low-level features by computing saliency scores for individual words but are clumsy at high-level text units such as phrases, sentences, or paragraphs.
この2つの問題に対処するため,本論文では,nlpにおけるディープラーニングモデルのための,単純かつ汎用的で効果的な自己説明フレームワークを提案する。
提案フレームワークの重要なポイントは、既存のnlpモデルの上に、解釈層によって呼び出される追加のレイヤを置くことである。
この層は各テキストスパンに関する情報を集約し、それを特定の重みに関連付け、その重み付けの組み合わせをソフトマックス関数に供給して最終的な予測を行う。
提案モデルは,(1)スパン重みを自己説明可能とし,解釈のための追加のプロビングモデルを必要としないこと,(2)提案モデルは一般的であり,nlpの既存の深層学習構造に適用可能であること,(3)各テキストスパンに関連する重みは,句や文などの高レベルテキスト単位に対する直接的な重要度スコアを提供する。
自己説明的特徴のニューラルモデルは、自己説明的性質を伴わずに、それよりも優れた性能を得ることができ、sst-5では59.1、snliでは92.3の新たなsota性能を達成する。
関連論文リスト
- Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Hierarchical Interpretation of Neural Text Classification [31.95426448656938]
本稿では,Hintと呼ばれる階層型インタプリタ型ニューラルテキスト分類器を提案する。
レビューデータセットとニュースデータセットの両方の実験結果から,提案手法は既存の最先端テキスト分類器と同等のテキスト分類結果が得られることが示された。
論文 参考訳(メタデータ) (2022-02-20T11:15:03Z) - Unsupervised Pre-training with Structured Knowledge for Improving
Natural Language Inference [22.648536283569747]
本研究では,事前学習モデルの異なるコンポーネントにおける構造化知識を活用するモデルを提案する。
以上の結果から,提案モデルは従来のBERTモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-08T21:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。