論文の概要: Why Attentions May Not Be Interpretable?
- arxiv url: http://arxiv.org/abs/2006.05656v4
- Date: Thu, 3 Jun 2021 06:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:31:22.824277
- Title: Why Attentions May Not Be Interpretable?
- Title(参考訳): なぜ注意が解釈できないのか?
- Authors: Bing Bai, Jian Liang, Guanhua Zhang, Hao Li, Kun Bai, Fei Wang
- Abstract要約: 近年の研究では、注目・重要解釈は期待どおりに機能しないことが多いことが判明した。
この現象の根本原因の一つがショートカットであり、注意重み自体が余分な情報を運ぶ可能性があることを示している。
この問題を緩和する2つの方法を提案する。
- 参考スコア(独自算出の注目度): 46.69116768203185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based methods have played important roles in model interpretations,
where the calculated attention weights are expected to highlight the critical
parts of inputs~(e.g., keywords in sentences). However, recent research found
that attention-as-importance interpretations often do not work as we expected.
For example, learned attention weights sometimes highlight less meaningful
tokens like "[SEP]", ",", and ".", and are frequently uncorrelated with other
feature importance indicators like gradient-based measures. A recent debate
over whether attention is an explanation or not has drawn considerable
interest. In this paper, we demonstrate that one root cause of this phenomenon
is the combinatorial shortcuts, which means that, in addition to the
highlighted parts, the attention weights themselves may carry extra information
that could be utilized by downstream models after attention layers. As a
result, the attention weights are no longer pure importance indicators. We
theoretically analyze combinatorial shortcuts, design one intuitive experiment
to show their existence, and propose two methods to mitigate this issue. We
conduct empirical studies on attention-based interpretation models. The results
show that the proposed methods can effectively improve the interpretability of
attention mechanisms.
- Abstract(参考訳): 注意度に基づく手法はモデル解釈において重要な役割を演じており、計算された注意度重みは入力の重要部分(例えば文中のキーワード)を強調することが期待されている。
しかし,近年の研究では,注目・重要解釈は期待通りには機能しないことが多い。
例えば、学習された注意重みは、"[SEP]"、"、"."のような意味の少ないトークンを強調し、勾配に基づく測定のような他の重要な指標とは無関係であることが多い。
注意が説明であるかどうかに関する最近の議論は、かなりの関心を集めている。
本稿では,この現象の根本原因の1つが組合せ的ショートカットであり,強調した部分に加えて,注目重み自体が注目層後の下流モデルで活用可能な余分な情報を運ぶことができることを示す。
その結果、注意重みはもはや純粋に重要な指標ではない。
理論的には,組合せショートカットを解析し,その存在を示すための直感的な実験を1つ設計し,この問題を緩和するための2つの方法を提案する。
我々は注意に基づく解釈モデルに関する実証的研究を行う。
提案手法は,注意機構の解釈性を効果的に向上できることを示す。
関連論文リスト
- Attention Meets Post-hoc Interpretability: A Mathematical Perspective [6.492879435794228]
簡単な注意に基づくアーキテクチャを数学的に研究し、ポストホックとアテンションに基づく説明の違いを指摘する。
それらとは全く異なる結果が得られており、その制限にもかかわらず、ポストホック法は単に注意重みを調べるだけでなく、より有用な洞察を捉えることができることを示した。
論文 参考訳(メタデータ) (2024-02-05T19:56:56Z) - Is Attention Interpretation? A Quantitative Assessment On Sets [0.0]
集合機械学習の文脈における注意の解釈可能性について検討する。
注意分布は、個々のインスタンスの相対的な重要性を反映していることが多い。
我々は、注意に基づく説明を誤解させるリスクを最小限に抑えるためにアンサンブルを使うことを提案する。
論文 参考訳(メタデータ) (2022-07-26T16:25:38Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Rethinking Attention-Model Explainability through Faithfulness Violation
Test [29.982295060192904]
Attentio$odot$Gradient や LRP ベースのアテンション説明など,現在のアテンションベース手法の説明可能性について検討する。
テストされたほとんどの説明手法は、信頼度違反の問題によって予期せぬ障害を受けていることが示される。
論文 参考訳(メタデータ) (2022-01-28T13:42:31Z) - Attention cannot be an Explanation [99.37090317971312]
私たちは、人間の信頼と信頼を高める上で、注意に基づく説明がどの程度効果的か尋ねる。
我々は,注意に基づく説明が適している程度を質的かつ定量的に評価することを目的とした広範囲な人間実験を行った。
実験の結果,注意は説明として利用できないことが明らかとなった。
論文 参考訳(メタデータ) (2022-01-26T21:34:05Z) - Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文 参考訳(メタデータ) (2021-06-02T11:42:56Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Explain and Improve: LRP-Inference Fine-Tuning for Image Captioning
Models [82.3793660091354]
本稿では,注意を可視化する以外に,注意機構を付加した画像キャプションモデルの予測について分析する。
我々は,注意機構を備えた画像キャプションモデルに適したレイヤワイド関連伝搬(LRP)と勾配に基づく説明法を開発した。
論文 参考訳(メタデータ) (2020-01-04T05:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。