論文の概要: Is Sparse Attention more Interpretable?
- arxiv url: http://arxiv.org/abs/2106.01087v1
- Date: Wed, 2 Jun 2021 11:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:32:59.184707
- Title: Is Sparse Attention more Interpretable?
- Title(参考訳): スパース注意はより解釈可能か?
- Authors: Clara Meister, Stefan Lazov, Isabelle Augenstein, Ryan Cotterell
- Abstract要約: 我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
- 参考スコア(独自算出の注目度): 52.85910570651047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse attention has been claimed to increase model interpretability under
the assumption that it highlights influential inputs. Yet the attention
distribution is typically over representations internal to the model rather
than the inputs themselves, suggesting this assumption may not have merit. We
build on the recent work exploring the interpretability of attention; we design
a set of experiments to help us understand how sparsity affects our ability to
use attention as an explainability tool. On three text classification tasks, we
verify that only a weak relationship between inputs and co-indexed intermediate
representations exists -- under sparse attention and otherwise. Further, we do
not find any plausible mappings from sparse attention distributions to a sparse
set of influential inputs through other avenues. Rather, we observe in this
setting that inducing sparsity may make it less plausible that attention can be
used as a tool for understanding model behavior.
- Abstract(参考訳): 影響のある入力が強調されるという仮定の下で、モデルの解釈性を高めることにはあまり注意が払われていない。
しかし、注意分布は一般に入力自体よりもモデルの内部の表現を超越しており、この仮定が有益でないことを示唆している。
我々は注意の解釈可能性を探る最近の研究に基づいて、注意を説明可能性ツールとして使う能力にスパーシティがどう影響するかを理解するための一連の実験をデザインする。
3つのテキスト分類タスクにおいて、入力とインデックス付き中間表現の間の弱い関係のみが存在することを検証する。
さらに,注意度分布のばらつきから,他の経路を経由する影響のある入力のばらばらな集合への妥当なマッピングは見つからなかった。
むしろ、この環境では、スパーシリティを誘発することで、モデルの振る舞いを理解するツールとして注意が使われる可能性が低くなることを観察する。
関連論文リスト
- Revisiting Attention Weights as Explanations from an Information
Theoretic Perspective [4.499369811647602]
注意機構は、他のモデル要素と慎重に組み合わせた場合、説明をモデル化するためのショートカットとして機能する可能性があることを示す。
本研究により,注意機構は,他のモデル要素と慎重に組み合わせた場合,モデル説明のためのショートカットとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-31T12:53:20Z) - Is Attention Interpretation? A Quantitative Assessment On Sets [0.0]
集合機械学習の文脈における注意の解釈可能性について検討する。
注意分布は、個々のインスタンスの相対的な重要性を反映していることが多い。
我々は、注意に基づく説明を誤解させるリスクを最小限に抑えるためにアンサンブルを使うことを提案する。
論文 参考訳(メタデータ) (2022-07-26T16:25:38Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Attention cannot be an Explanation [99.37090317971312]
私たちは、人間の信頼と信頼を高める上で、注意に基づく説明がどの程度効果的か尋ねる。
我々は,注意に基づく説明が適している程度を質的かつ定量的に評価することを目的とした広範囲な人間実験を行った。
実験の結果,注意は説明として利用できないことが明らかとなった。
論文 参考訳(メタデータ) (2022-01-26T21:34:05Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - More Identifiable yet Equally Performant Transformers for Text
Classification [13.439554931699695]
変圧器の予測は、注意重み、すなわち自己注意単位(頭部)で生じる確率分布によって広く説明される。
現在の実証研究は、注意重みが特異でないことを証明することによって説明できないという証拠のシャーレを提供している。
頭部への所定の入力とその出力について、注意重みがユニークであれば、重みを識別可能と呼ぶ。
我々は、キーと値ベクトルの関係を分離し、入力の所望の長さまで同定可能な重みを与えるエンコーダ層の変種を提供する。
論文 参考訳(メタデータ) (2021-06-02T16:21:38Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Why Attentions May Not Be Interpretable? [46.69116768203185]
近年の研究では、注目・重要解釈は期待どおりに機能しないことが多いことが判明した。
この現象の根本原因の一つがショートカットであり、注意重み自体が余分な情報を運ぶ可能性があることを示している。
この問題を緩和する2つの方法を提案する。
論文 参考訳(メタデータ) (2020-06-10T05:08:30Z) - Towards Transparent and Explainable Attention Models [34.0557018891191]
まず,LSTMをベースとしたエンコーダにおける現在の注意機構が,モデルの予測を忠実に,あるいは妥当に説明できない理由を説明する。
本研究では,異なる時間ステップで学習した隠れ表現が多様であることを保証するため,多様性駆動型学習目標を持つLSTM細胞を改良した。
人的評価は,本モデルが学習した注意分布が,モデルの予測を妥当に説明できることを示唆している。
論文 参考訳(メタデータ) (2020-04-29T14:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。