論文の概要: Revisiting Attention Weights as Explanations from an Information
Theoretic Perspective
- arxiv url: http://arxiv.org/abs/2211.07714v1
- Date: Mon, 31 Oct 2022 12:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 14:00:36.239497
- Title: Revisiting Attention Weights as Explanations from an Information
Theoretic Perspective
- Title(参考訳): 情報理論からみた注意重み付けの再検討
- Authors: Bingyang Wen, K.P. Subbalakshmi, Fan Yang
- Abstract要約: 注意機構は、他のモデル要素と慎重に組み合わせた場合、説明をモデル化するためのショートカットとして機能する可能性があることを示す。
本研究により,注意機構は,他のモデル要素と慎重に組み合わせた場合,モデル説明のためのショートカットとして機能する可能性が示唆された。
- 参考スコア(独自算出の注目度): 4.499369811647602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention mechanisms have recently demonstrated impressive performance on a
range of NLP tasks, and attention scores are often used as a proxy for model
explainability. However, there is a debate on whether attention weights can, in
fact, be used to identify the most important inputs to a model. We approach
this question from an information theoretic perspective by measuring the mutual
information between the model output and the hidden states. From extensive
experiments, we draw the following conclusions: (i) Additive and Deep attention
mechanisms are likely to be better at preserving the information between the
hidden states and the model output (compared to Scaled Dot-product); (ii)
ablation studies indicate that Additive attention can actively learn to explain
the importance of its input hidden representations; (iii) when attention values
are nearly the same, the rank order of attention values is not consistent with
the rank order of the mutual information(iv) Using Gumbel-Softmax with a
temperature lower than one, tends to produce a more skewed attention score
distribution compared to softmax and hence is a better choice for explainable
design; (v) some building blocks are better at preserving the correlation
between the ordered list of mutual information and attention weights order (for
e.g., the combination of BiLSTM encoder and Additive attention). Our findings
indicate that attention mechanisms do have the potential to function as a
shortcut to model explanations when they are carefully combined with other
model elements.
- Abstract(参考訳): 注意機構は、最近、様々なNLPタスクにおいて印象的なパフォーマンスを示しており、アテンションスコアは、しばしばモデル説明可能性のプロキシとして使用される。
しかし、注意重みが実際にモデルへの最も重要な入力を特定するのに使用できるかどうかについては議論がある。
我々は,モデル出力と隠れ状態の相互情報を測定することにより,情報理論的な観点からこの問題にアプローチする。
広範な実験から、以下の結論が導かれる。
(i)添加物及び深層注意機構は、隠れた状態とモデル出力(スケールドドット製品に比較して)の間の情報を保存するのが適している可能性が高い。
二 補助的注意が、入力された隠蔽表現の重要性を積極的に説明することができること。
(iii)注意値がほぼ同じである場合、注意値のランク順が相互情報のランク順と一致しない
(四)Gumbel-Softmaxを1より低い温度で使用する場合、ソフトマックスよりもスキューな注意点分布を生じやすいため、説明可能な設計に適している。
(v) 相互情報の順序リストと注意重みの順序(例えば、bilstmエンコーダと付加的注意の組合せ)との相関性を保つのに優れた構成要素がある。
その結果,注意機構は他のモデル要素と慎重に組み合わされたときにモデル説明の近道として機能する可能性が示唆された。
関連論文リスト
- Naturalness of Attention: Revisiting Attention in Code Language Models [3.756550107432323]
CodeBERTのようなコードの言語モデルは、高度なソースコード表現を学習する機能を提供するが、その不透明さは、取得したプロパティを理解する上で障壁となる。
本研究は、注意重みを超える注意機構のこれまで無視されていた要因について、いくつかの光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-11-22T16:34:12Z) - Message Intercommunication for Inductive Relation Reasoning [49.731293143079455]
我々はMINESと呼ばれる新しい帰納的関係推論モデルを開発した。
隣り合う部分グラフにメッセージ通信機構を導入する。
我々の実験は、MINESが既存の最先端モデルより優れていることを示している。
論文 参考訳(メタデータ) (2023-05-23T13:51:46Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Attention cannot be an Explanation [99.37090317971312]
私たちは、人間の信頼と信頼を高める上で、注意に基づく説明がどの程度効果的か尋ねる。
我々は,注意に基づく説明が適している程度を質的かつ定量的に評価することを目的とした広範囲な人間実験を行った。
実験の結果,注意は説明として利用できないことが明らかとなった。
論文 参考訳(メタデータ) (2022-01-26T21:34:05Z) - How Knowledge Graph and Attention Help? A Quantitative Analysis into
Bag-level Relation Extraction [66.09605613944201]
バッグレベルの関係抽出(RE)における注意と知識グラフの効果を定量的に評価する。
その結果,(1)注目精度の向上は,エンティティ参照特徴を抽出するモデルの性能を損なう可能性があること,(2)注目性能は様々なノイズ分布パターンの影響が大きいこと,(3)KG強化された注目はRE性能を向上するが,その効果は注目度を向上させるだけでなく,先行するエンティティを組み込むことによっても改善することがわかった。
論文 参考訳(メタデータ) (2021-07-26T09:38:28Z) - Improve the Interpretability of Attention: A Fast, Accurate, and
Interpretable High-Resolution Attention Model [6.906621279967867]
そこで本稿では,タスク関連情報を取り込むための,非線形代表非パラメトリックアテンション(BR-NPA)戦略を提案する。
提案したモデルは、分類が関与する様々な近代的な深層モデルに容易に適応できる。
また、通常のニューラルアテンションモジュールよりも正確で高速で、メモリフットプリントも小さい。
論文 参考訳(メタデータ) (2021-06-04T15:57:37Z) - Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文 参考訳(メタデータ) (2021-06-02T11:42:56Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。