論文の概要: SEAT: Stable and Explainable Attention
- arxiv url: http://arxiv.org/abs/2211.13290v1
- Date: Wed, 23 Nov 2022 20:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:22:42.480628
- Title: SEAT: Stable and Explainable Attention
- Title(参考訳): SEAT: 安定して説明可能な注意
- Authors: Lijie Hu, Yixin Liu, Ninghao Liu, Mengdi Huai, Lichao Sun and Di Wang
- Abstract要約: このような代名詞 SEAT (Stable and Explainable Attention) の最初の厳密な定義を提供する。
SEATは、異なる摂動とランダム性に対してより安定であるが、注意力の説明可能性も維持しており、より忠実な説明であることを示している。
結果は、SEATは異なる摂動やランダム性に対してより安定であり、注意力の説明可能性も維持していることを示し、より忠実な説明であることを示している。
- 参考スコア(独自算出の注目度): 41.942933172472074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, attention mechanism becomes a standard fixture in most
state-of-the-art natural language processing (NLP) models, not only due to
outstanding performance it could gain, but also due to plausible innate
explanation for the behaviors of neural architectures it provides, which is
notoriously difficult to analyze. However, recent studies show that attention
is unstable against randomness and perturbations during training or testing,
such as random seeds and slight perturbation of embedding vectors, which
impedes it from becoming a faithful explanation tool. Thus, a natural question
is whether we can find some substitute of the current attention which is more
stable and could keep the most important characteristics on explanation and
prediction of attention. In this paper, to resolve the problem, we provide a
first rigorous definition of such alternate namely SEAT (Stable and Explainable
Attention). Specifically, a SEAT should has the following three properties: (1)
Its prediction distribution is enforced to be close to the distribution based
on the vanilla attention; (2) Its top-k indices have large overlaps with those
of the vanilla attention; (3) It is robust w.r.t perturbations, i.e., any
slight perturbation on SEAT will not change the prediction distribution too
much, which implicitly indicates that it is stable to randomness and
perturbations. Finally, through intensive experiments on various datasets, we
compare our SEAT with other baseline methods using RNN, BiLSTM and BERT
architectures via six different evaluation metrics for model interpretation,
stability and accuracy. Results show that SEAT is more stable against different
perturbations and randomness while also keeps the explainability of attention,
which indicates it is a more faithful explanation. Moreover, compared with
vanilla attention, there is almost no utility (accuracy) degradation for SEAT.
- Abstract(参考訳): 現在、注意機構は、ほとんどの最先端自然言語処理(NLP)モデルにおいて標準のフィクスチャとなり、優れたパフォーマンスを得られるだけでなく、それが提供するニューラルネットワークの振る舞いに関する明確な説明によってもたらされる。
しかし、近年の研究では、ランダム種子や埋め込みベクトルのわずかな摂動など、トレーニングやテスト中のランダム性や摂動に対する注意が不安定であることが示され、それが忠実な説明ツールになることを妨げている。
したがって、より安定しており、注意の解釈や予測において最も重要な特徴を維持できる現在の注意の代用を見つけることができるかどうかが自然の疑問である。
本稿では,この問題を解決するために,シート(安定・説明可能な注意)という代替概念を初めて厳密に定義する。
具体的には、(1)その予測分布がバニラ注意に基づく分布に近いように強制される、(2)そのトップk指標がバニラ注意値と重なること、(3)ロバストなw.r.t摂動、すなわち、座席上のわずかな摂動は予測分布をあまり変化させないこと、そして暗黙的にランダム性や摂動に安定していることを示す、の3つの特性を有するべきである。
最後に,様々なデータセットに対する集中的な実験を通じて,モデル解釈,安定性,正確性に関する6つの評価基準を用いて,rnn,bilstm,bertアーキテクチャを用いた他のベースライン手法と比較した。
結果は、SEATは異なる摂動やランダム性に対してより安定であり、注意力の説明可能性も維持していることを示し、より忠実な説明であることを示している。
また,バニラアテンションと比較して,SEATの実用性(精度)の低下はほとんどない。
関連論文リスト
- Investigating the Impact of Model Instability on Explanations and Uncertainty [43.254616360807496]
テキスト入力における不確かさを推測時に雑音を導入することでシミュレートする。
高い不確実性は必ずしも説明可能性の低さを暗示しない。
このことは、ノイズ増強モデルが不確実性のあるトークンを特定するのに優れていることを示唆している。
論文 参考訳(メタデータ) (2024-02-20T13:41:21Z) - A Robust Probabilistic Approach to Stochastic Subspace Identification [0.0]
非定型的な観察は、運用モード解析アルゴリズムに問題をもたらす。
現在、SSIでこのような異常を処理できる単純なメカニズムは存在しない。
本稿では、まず、サブスペース識別の新しい確率的定式化(Prob-SSI)を紹介する。
論文 参考訳(メタデータ) (2023-05-26T11:26:49Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - SLA$^2$P: Self-supervised Anomaly Detection with Adversarial
Perturbation [77.71161225100927]
異常検出は、機械学習の基本的な問題であるが、難しい問題である。
本稿では,非教師付き異常検出のための新しい強力なフレームワークであるSLA$2$Pを提案する。
論文 参考訳(メタデータ) (2021-11-25T03:53:43Z) - Deconfounded Score Method: Scoring DAGs with Dense Unobserved
Confounding [101.35070661471124]
本研究では,観測データ分布に特徴的フットプリントが残っており,突発的・因果的影響を解消できることを示す。
汎用ソルバで実装し,高次元問題へのスケールアップが可能なスコアベース因果検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-28T11:07:59Z) - Latent Causal Invariant Model [128.7508609492542]
現在の教師付き学習は、データ適合プロセス中に急激な相関を学習することができる。
因果予測を求める潜在因果不変モデル(LaCIM)を提案する。
論文 参考訳(メタデータ) (2020-11-04T10:00:27Z) - On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and
Strong Baselines [31.807628937487927]
BERTのような微調整済みの言語モデルは、様々なNLPベンチマークでリーダーボードを独占する一般的なプラクティスとなっている。
以前の文献では、破滅的な忘れ物と微調整データセットの小さなサイズの2つの潜在的な原因が明らかになった。
どちらの仮説も微調整の不安定性を説明できないことを示す。
論文 参考訳(メタデータ) (2020-06-08T19:06:24Z) - Towards Transparent and Explainable Attention Models [34.0557018891191]
まず,LSTMをベースとしたエンコーダにおける現在の注意機構が,モデルの予測を忠実に,あるいは妥当に説明できない理由を説明する。
本研究では,異なる時間ステップで学習した隠れ表現が多様であることを保証するため,多様性駆動型学習目標を持つLSTM細胞を改良した。
人的評価は,本モデルが学習した注意分布が,モデルの予測を妥当に説明できることを示唆している。
論文 参考訳(メタデータ) (2020-04-29T14:47:50Z) - The Curse of Performance Instability in Analysis Datasets: Consequences,
Source, and Suggestions [93.62888099134028]
自然言語推論(NLI)および読み込み(RC)解析/ストレスセットにおける最先端モデルの性能は極めて不安定であることがわかった。
このことは、(1)不安定さがこれらの分析セットに基づいて引き出された結論の信頼性にどのように影響するかという3つの疑問を提起する。
不安定の原因に関する理論的説明と実証的証拠の両方を提示する。
論文 参考訳(メタデータ) (2020-04-28T15:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。