論文の概要: More Identifiable yet Equally Performant Transformers for Text
Classification
- arxiv url: http://arxiv.org/abs/2106.01269v1
- Date: Wed, 2 Jun 2021 16:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 16:56:34.297924
- Title: More Identifiable yet Equally Performant Transformers for Text
Classification
- Title(参考訳): テキスト分類のためのより識別可能かつ等速なトランスフォーマー
- Authors: Rishabh Bhardwaj, Navonil Majumder, Soujanya Poria, Eduard Hovy
- Abstract要約: 変圧器の予測は、注意重み、すなわち自己注意単位(頭部)で生じる確率分布によって広く説明される。
現在の実証研究は、注意重みが特異でないことを証明することによって説明できないという証拠のシャーレを提供している。
頭部への所定の入力とその出力について、注意重みがユニークであれば、重みを識別可能と呼ぶ。
我々は、キーと値ベクトルの関係を分離し、入力の所望の長さまで同定可能な重みを与えるエンコーダ層の変種を提供する。
- 参考スコア(独自算出の注目度): 13.439554931699695
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Interpretability is an important aspect of the trustworthiness of a model's
predictions. Transformer's predictions are widely explained by the attention
weights, i.e., a probability distribution generated at its self-attention unit
(head). Current empirical studies provide shreds of evidence that attention
weights are not explanations by proving that they are not unique. A recent
study showed theoretical justifications to this observation by proving the
non-identifiability of attention weights. For a given input to a head and its
output, if the attention weights generated in it are unique, we call the
weights identifiable. In this work, we provide deeper theoretical analysis and
empirical observations on the identifiability of attention weights. Ignored in
the previous works, we find the attention weights are more identifiable than we
currently perceive by uncovering the hidden role of the key vector. However,
the weights are still prone to be non-unique attentions that make them unfit
for interpretation. To tackle this issue, we provide a variant of the encoder
layer that decouples the relationship between key and value vector and provides
identifiable weights up to the desired length of the input. We prove the
applicability of such variations by providing empirical justifications on
varied text classification tasks. The implementations are available at
https://github.com/declare-lab/identifiable-transformers.
- Abstract(参考訳): 解釈性はモデルの予測の信頼性の重要な側面である。
トランスフォーマーの予測は注意重み、すなわち自己着脱単位(ヘッド)で生成される確率分布によって広く説明される。
現在の実証研究は、注意重みが特異でないことを証明することによって説明できないという証拠のシャーレを提供している。
最近の研究では、注意重みの非識別性を証明することによって、この観察に対する理論的正当性を示した。
ヘッドへの入力とその出力に対して、その中に生成される注意重みがユニークであれば、その重みを識別可能なものとします。
本研究では,注目重みの識別可能性に関する理論的解析と実証観察を行う。
以前の研究で無視されているように、キーベクトルの隠れた役割を明らかにすることで、現在認識しているよりも注意重みが識別可能である。
しかし、重みは、解釈に不適当な非普遍的な注意を向ける傾向にある。
この問題に対処するために,キーと値ベクトルの関係を分離し,入力の所望の長さまで識別可能な重みを与えるエンコーダレイヤの変種を提供する。
多様なテキスト分類タスクに対して経験的正当化を提供することにより,このようなバリエーションの適用性を証明する。
実装はhttps://github.com/declare-lab/identizable-transformersで利用可能である。
関連論文リスト
- An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models [64.87562101662952]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。
我々は入力トークンの十分かつ最小限の表現の存在を確立する。
所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文 参考訳(メタデータ) (2022-12-30T17:59:01Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Rethinking Attention-Model Explainability through Faithfulness Violation
Test [29.982295060192904]
Attentio$odot$Gradient や LRP ベースのアテンション説明など,現在のアテンションベース手法の説明可能性について検討する。
テストされたほとんどの説明手法は、信頼度違反の問題によって予期せぬ障害を受けていることが示される。
論文 参考訳(メタデータ) (2022-01-28T13:42:31Z) - Attention cannot be an Explanation [99.37090317971312]
私たちは、人間の信頼と信頼を高める上で、注意に基づく説明がどの程度効果的か尋ねる。
我々は,注意に基づく説明が適している程度を質的かつ定量的に評価することを目的とした広範囲な人間実験を行った。
実験の結果,注意は説明として利用できないことが明らかとなった。
論文 参考訳(メタデータ) (2022-01-26T21:34:05Z) - Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文 参考訳(メタデータ) (2021-06-02T11:42:56Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Why Attentions May Not Be Interpretable? [46.69116768203185]
近年の研究では、注目・重要解釈は期待どおりに機能しないことが多いことが判明した。
この現象の根本原因の一つがショートカットであり、注意重み自体が余分な情報を運ぶ可能性があることを示している。
この問題を緩和する2つの方法を提案する。
論文 参考訳(メタデータ) (2020-06-10T05:08:30Z) - Towards Transparent and Explainable Attention Models [34.0557018891191]
まず,LSTMをベースとしたエンコーダにおける現在の注意機構が,モデルの予測を忠実に,あるいは妥当に説明できない理由を説明する。
本研究では,異なる時間ステップで学習した隠れ表現が多様であることを保証するため,多様性駆動型学習目標を持つLSTM細胞を改良した。
人的評価は,本モデルが学習した注意分布が,モデルの予測を妥当に説明できることを示唆している。
論文 参考訳(メタデータ) (2020-04-29T14:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。