論文の概要: COCKATIEL: COntinuous Concept ranKed ATtribution with Interpretable
ELements for explaining neural net classifiers on NLP tasks
- arxiv url: http://arxiv.org/abs/2305.06754v1
- Date: Thu, 11 May 2023 12:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 15:02:06.148304
- Title: COCKATIEL: COntinuous Concept ranKed ATtribution with Interpretable
ELements for explaining neural net classifiers on NLP tasks
- Title(参考訳): cockatiel: nlpタスクにおけるニューラルネット分類器の説明のための解釈可能な要素による帰属分類の連続概念
- Authors: Fanny Jourdan, Agustin Picard, Thomas Fel, Laurent Risser, Jean Michel
Loubes, Nicholas Asher
- Abstract要約: COCKATIELは、新しい、ポストホック、コンセプトベース、モデルに依存しないXAI技術である。
NLP分類タスクでトレーニングされたニューラルネットモデルの最後の層から意味のある説明を生成する。
基礎となるモデルの精度を損なうことなく、新しいモデルをトレーニングする必要もない。
- 参考スコア(独自算出の注目度): 3.475906200620518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architectures are complex and their use in NLP, while it has
engendered many successes, makes their interpretability or explainability
challenging. Recent debates have shown that attention maps and attribution
methods are unreliable (Pruthi et al., 2019; Brunner et al., 2019). In this
paper, we present some of their limitations and introduce COCKATIEL, which
successfully addresses some of them. COCKATIEL is a novel, post-hoc,
concept-based, model-agnostic XAI technique that generates meaningful
explanations from the last layer of a neural net model trained on an NLP
classification task by using Non-Negative Matrix Factorization (NMF) to
discover the concepts the model leverages to make predictions and by exploiting
a Sensitivity Analysis to estimate accurately the importance of each of these
concepts for the model. It does so without compromising the accuracy of the
underlying model or requiring a new one to be trained. We conduct experiments
in single and multi-aspect sentiment analysis tasks and we show COCKATIEL's
superior ability to discover concepts that align with humans' on Transformer
models without any supervision, we objectively verify the faithfulness of its
explanations through fidelity metrics, and we showcase its ability to provide
meaningful explanations in two different datasets.
- Abstract(参考訳): トランスフォーマーアーキテクチャは複雑で、NLPで使用されるが、多くの成功をおさめ、解釈可能性や説明性は困難である。
近年の議論では、注意地図と属性法は信頼できない(Pruthi et al., 2019; Brunner et al., 2019)。
本稿では,その制限のいくつかを紹介するとともに,そのいくつかをうまく解決したcockatielを紹介する。
cockatielは、nlp分類タスクでトレーニングされたニューラルネットモデルの最終層から、非負行列分解(non-negative matrix factorization:nmf)を使用して、モデルが予測に利用する概念を発見し、感度分析を利用してモデルに対する各概念の重要性を正確に推定することで、意味のある説明を生成する、新しい、概念ベース、モデル非依存のxaiテクニックである。
基礎となるモデルの精度を損なうことなく、新しいモデルをトレーニングする必要もない。
我々は,単一および多視点の感情分析タスクで実験を行い,コッカティエルが人間のトランスフォーマーモデルと協調する概念を何の監督もせずに発見する能力を示し,その説明の忠実性を忠実度メトリクスで客観的に検証し,2つの異なるデータセットで有意義な説明を提供する能力を示す。
関連論文リスト
- CAT: Interpretable Concept-based Taylor Additive Models [17.73885202930879]
一般化付加モデル(GAM)は、機能レベルでディープニューラルネットワーク(DNN)を説明することができる。
GAMは多数のモデルパラメータを必要とし、オーバーフィットする傾向があり、トレーニングやスケールが困難になる。
我々は、このプロセスに対して、新しい解釈可能な概念bAsed Taylor加法モデルであるCATを提案する。
論文 参考訳(メタデータ) (2024-06-25T20:43:15Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - NxPlain: Web-based Tool for Discovery of Latent Concepts [16.446370662629555]
提案するNxPlainは,潜在概念を用いたモデル予測を記述したWebアプリケーションである。
NxPlainは、深いNLPモデルで学んだ潜在概念を発見し、モデルで学んだ知識の解釈を提供し、使用した概念に基づいてその予測を説明する。
論文 参考訳(メタデータ) (2023-03-06T10:45:24Z) - Provable concept learning for interpretable predictions using
variational inference [7.0349768355860895]
安全クリティカルなアプリケーションでは、解釈可能な説明が得られない場合、実践者はニューラルネットワークを信頼することを避けます。
我々は(C)概念(L)アーニングと(P)ディディクション(CLAP)を導出する確率論的モデリングフレームワークを提案する。
本手法は最適な分類精度を保ちながら同定できることを実証する。
論文 参考訳(メタデータ) (2022-04-01T14:51:38Z) - Correcting Classification: A Bayesian Framework Using Explanation
Feedback to Improve Classification Abilities [2.0931163605360115]
説明は社会的であり、それは相互作用による知識の伝達である。
説明フィードバックを用いたベイズ畳み込みニューラルネットワーク(CNN)の訓練により、これらの困難を克服します。
提案手法は,このフィードバックを微調整に利用して,説明や分類が改善するモデルを修正する。
論文 参考訳(メタデータ) (2021-04-29T13:59:21Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Modeling Token-level Uncertainty to Learn Unknown Concepts in SLU via
Calibrated Dirichlet Prior RNN [98.4713940310056]
現代パーソナルアシスタントにおける音声言語理解(SLU)の主な課題は、発話から意味概念を抽出することである。
最近の研究では、疑問と回答を収集し、未知のデータを学習し、質問すべきである。
疑わしい監督なしにシーケンスの不確かさをモデル化するために、ソフトマックスベースのスロット充填ニューラルネットワークアーキテクチャを組み込んだ。
論文 参考訳(メタデータ) (2020-10-16T02:12:30Z) - Interpreting Graph Neural Networks for NLP With Differentiable Edge
Masking [63.49779304362376]
グラフニューラルネットワーク(GNN)は、構造的帰納バイアスをNLPモデルに統合する一般的なアプローチとなっている。
本稿では,不要なエッジを識別するGNNの予測を解釈するポストホック手法を提案する。
モデルの性能を劣化させることなく,多数のエッジを落とせることを示す。
論文 参考訳(メタデータ) (2020-10-01T17:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。