論文の概要: Attention vs non-attention for a Shapley-based explanation method
- arxiv url: http://arxiv.org/abs/2104.12424v1
- Date: Mon, 26 Apr 2021 09:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 23:24:44.972776
- Title: Attention vs non-attention for a Shapley-based explanation method
- Title(参考訳): シャプリー型説明法における注意と非注意
- Authors: Tom Kersten, Hugh Mee Wong, Jaap Jumelet, Dieuwke Hupkes
- Abstract要約: コンテクチュアル分解(CD) -- 繰り返しNLPモデルでうまく機能することが示されているShapleyベースの入力機能アトリビューションメソッドを検討する。
英語とオランダ語のモデルも同様の処理挙動を示すが、その内部には注意と非注意モデルの間には一貫性のある違いがある。
- 参考スコア(独自算出の注目度): 6.386917828177479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of explainable AI has recently seen an explosion in the number of
explanation methods for highly non-linear deep neural networks. The extent to
which such methods -- that are often proposed and tested in the domain of
computer vision -- are appropriate to address the explainability challenges in
NLP is yet relatively unexplored. In this work, we consider Contextual
Decomposition (CD) -- a Shapley-based input feature attribution method that has
been shown to work well for recurrent NLP models -- and we test the extent to
which it is useful for models that contain attention operations. To this end,
we extend CD to cover the operations necessary for attention-based models. We
then compare how long distance subject-verb relationships are processed by
models with and without attention, considering a number of different syntactic
structures in two different languages: English and Dutch. Our experiments
confirm that CD can successfully be applied for attention-based models as well,
providing an alternative Shapley-based attribution method for modern neural
networks. In particular, using CD, we show that the English and Dutch models
demonstrate similar processing behaviour, but that under the hood there are
consistent differences between our attention and non-attention models.
- Abstract(参考訳): 説明可能なAIの分野は、最近、高非線形ディープニューラルネットワークの説明方法が爆発的に増えている。
コンピュータビジョンの領域でしばしば提案され、テストされるそのような手法が、NLPにおける説明可能性の問題にどのように対処するかは、まだ明らかになっていない。
本研究では,繰り返しNLPモデルに有効であることを示すShapleyベースの入力特徴属性法であるContextual Decomposition (CD)について検討し,注意操作を含むモデルにどの程度有用かを検証する。
この目的のために、注意に基づくモデルに必要な操作をカバーするためにCDを拡張する。
次に,2つの異なる言語(英語とオランダ語)の異なる構文構造を考慮し,対象と対象の関係の長距離化をモデルと無注意で比較した。
我々の実験は、CDが注意に基づくモデルにもうまく適用可能であることを確認し、現代のニューラルネットワークに代替のShapleyベースの属性法を提供する。
特にCDを用いて、イギリスとオランダのモデルも同様な処理挙動を示すが、その内部では注意と非注意のモデルの間に一貫した違いがある。
関連論文リスト
- Feature Interactions Reveal Linguistic Structure in Language Models [2.0178765779788495]
本研究では,ポストホック解釈における特徴帰属手法の文脈における特徴的相互作用について検討した。
私たちは、正規言語分類タスクで完璧にモデルをトレーニングする灰色のボックスの方法論を開発します。
特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。
論文 参考訳(メタデータ) (2023-06-21T11:24:41Z) - On the Interpretability of Attention Networks [1.299941371793082]
注意モデルがどのように正確かを示すが、解釈できないことを示し、そのようなモデルがトレーニングの結果として発生することを示す。
空間性を促進するために設計されたいくつかの注意モデル学習アルゴリズムを評価し、これらのアルゴリズムが解釈可能性を向上させることを実証する。
論文 参考訳(メタデータ) (2022-12-30T15:31:22Z) - A Detailed Study of Interpretability of Deep Neural Network based Top
Taggers [3.8541104292281805]
説明可能なAI(XAI)の最近の進歩により、研究者はディープニューラルネットワーク(DNN)の内部動作を探索できる。
大型ハドロン衝突型加速器(LHC)における高エネルギー陽子-陽子衝突におけるトップクォーク崩壊からのジェットの解釈可能性について検討する。
本研究は,既存のXAI手法の大きな落とし穴を明らかにし,これらのモデルの一貫性と意味のある解釈をいかに克服できるかを説明する。
論文 参考訳(メタデータ) (2022-10-09T23:02:42Z) - Invariant Causal Mechanisms through Distribution Matching [86.07327840293894]
本研究では、因果的視点と不変表現を学習するための新しいアルゴリズムを提供する。
実験により,このアルゴリズムは様々なタスク群でうまく動作し,特にドメインの一般化における最先端のパフォーマンスを観察する。
論文 参考訳(メタデータ) (2022-06-23T12:06:54Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - This looks more like that: Enhancing Self-Explaining Models by
Prototypical Relevance Propagation [17.485732906337507]
本稿では,自己説明型ネットワークであるProtoPNetのアーティファクトのスペクトルの存在下でのケーススタディを示す。
より正確なモデル認識説明を生成するための新しい手法を提案する。
クリーンなデータセットを得るために,アーティファクト画像を分離するためのマルチビュークラスタリング戦略を提案する。
論文 参考訳(メタデータ) (2021-08-27T09:55:53Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z) - Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural
Networks [24.02184854949444]
本研究では,アテンション・プルーニング(Attention Pruning,AP)を提案する。これは,固定されたデータセットにおける注意パターンの観測を収集し,そのモデルに対するグローバルなスパースネスマスクを誘導するフレームワークである。
APは、言語モデリングの注意計算の90%を節約し、機械翻訳やGLUEタスクの約50%を処理し、結果の品質を維持している。
我々のフレームワークは原則として、アテンションメカニズムを使用するモデルなら何でもスピードアップできるので、既存のNLPアプリケーションや新しいNLPアプリケーションのためにより良いモデルを開発するのに役立ちます。
論文 参考訳(メタデータ) (2020-11-20T13:58:21Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。