Fugu-MT 論文翻訳(概要): Effective Attention Sheds Light On Interpretability

論文の概要: Effective Attention Sheds Light On Interpretability

arxiv url: http://arxiv.org/abs/2105.08855v1
Date: Tue, 18 May 2021 23:41:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-20 22:17:38.563727
Title: Effective Attention Sheds Light On Interpretability
Title（参考訳）: 効果的な注意は解釈可能性に光を当てる
Authors: Kaiser Sun and Ana Marasovi\'c
Abstract要約: 有効な注意を可視化することは、標準的な注意の解釈とは異なる結論を与えるかどうかを問う。実効的な注意力は、言語モデリング事前学習に関連する特徴とあまり関連がないことを示す。設計によって出力されるモデルに関係が深いため, 変圧器の挙動を研究する上で, 効果的な注意を払うことを推奨する。
参考スコア（独自算出の注目度）: 3.317258557707008
License: http://creativecommons.org/licenses/by/4.0/
Abstract: An attention matrix of a transformer self-attention sublayer can provably be decomposed into two components and only one of them (effective attention) contributes to the model output. This leads us to ask whether visualizing effective attention gives different conclusions than interpretation of standard attention. Using a subset of the GLUE tasks and BERT, we carry out an analysis to compare the two attention matrices, and show that their interpretations differ. Effective attention is less associated with the features related to the language modeling pretraining such as the separator token, and it has more potential to illustrate linguistic features captured by the model for solving the end-task. Given the found differences, we recommend using effective attention for studying a transformer's behavior since it is more pertinent to the model output by design.
Abstract（参考訳）: 変圧器自己注意サブレイヤの注意行列は、2つの成分に確実に分解することができ、その1つ(有効注意)のみがモデル出力に寄与する。これにより、効果的な注意の可視化が標準的な注意の解釈と異なる結論を与えるかどうかを問うことができる。グルータスクとbertのサブセットを使用して、2つのアテンション行列を比較する解析を行い、それらの解釈が異なることを示す。効果的な注意力は、セパレータトークンのような言語モデリング事前訓練に関連する特徴とは無関係であり、エンドタスクを解くためにモデルが捉えた言語的特徴を説明する可能性がある。この違いを考慮に入れると,設計によって出力されるモデルとより関連があるため,トランスフォーマーの挙動の研究に効果的に注意を払うことを推奨する。

関連論文リスト

On Explaining with Attention Matrices [2.1178416840822027]
本稿では,変圧器モデルにおける注目重み(AW)と予測出力との説明的リンクについて検討する。我々は,AWが説明的役割を果たすタスクやモデルにおいて,注意行列の有効成分を分離する,効率的な注意力を導入し,効果的に計算する。
論文参考訳（メタデータ） (2024-10-24T08:43:33Z)
Elliptical Attention [1.7597562616011944]
Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
論文参考訳（メタデータ） (2024-06-19T18:38:11Z)
How Much Does Attention Actually Attend? Questioning the Importance of Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文参考訳（メタデータ） (2022-11-07T12:37:54Z)
Shapley Head Pruning: Identifying and Removing Interference in Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文参考訳（メタデータ） (2022-10-11T18:11:37Z)
Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。入力とインデックス付き中間表現の間には弱い関係しか存在しません。この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文参考訳（メタデータ） (2021-06-02T11:42:56Z)
SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-25T14:13:44Z)
Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文参考訳（メタデータ） (2020-09-30T13:18:57Z)
Why Attentions May Not Be Interpretable? [46.69116768203185]
近年の研究では、注目・重要解釈は期待どおりに機能しないことが多いことが判明した。この現象の根本原因の一つがショートカットであり、注意重み自体が余分な情報を運ぶ可能性があることを示している。この問題を緩和する2つの方法を提案する。
論文参考訳（メタデータ） (2020-06-10T05:08:30Z)
Explain and Improve: LRP-Inference Fine-Tuning for Image Captioning Models [82.3793660091354]
本稿では,注意を可視化する以外に,注意機構を付加した画像キャプションモデルの予測について分析する。我々は,注意機構を備えた画像キャプションモデルに適したレイヤワイド関連伝搬(LRP)と勾配に基づく説明法を開発した。
論文参考訳（メタデータ） (2020-01-04T05:15:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。