論文の概要: How Far Does BERT Look At:Distance-based Clustering and Analysis of
BERT$'$s Attention
- arxiv url: http://arxiv.org/abs/2011.00943v2
- Date: Tue, 3 Nov 2020 04:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:57:28.463658
- Title: How Far Does BERT Look At:Distance-based Clustering and Analysis of
BERT$'$s Attention
- Title(参考訳): BERTはどこまで見えるか:距離に基づくクラスタリングとBERT$'sのアテンションの分析
- Authors: Yue Guan, Jingwen Leng, Chao Li, Quan Chen, Minyi Guo
- Abstract要約: 注意マップを教師なしクラスタリングによって、大きく異なるパターンにクラスタリングします。
提案する特徴は,Transformer モデルにおける異なる注意ヘッドのキャリブレーションに利用できる。
- 参考スコア(独自算出の注目度): 20.191319097826266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research on the multi-head attention mechanism, especially that in
pre-trained models such as BERT, has shown us heuristics and clues in analyzing
various aspects of the mechanism. As most of the research focus on probing
tasks or hidden states, previous works have found some primitive patterns of
attention head behavior by heuristic analytical methods, but a more systematic
analysis specific on the attention patterns still remains primitive. In this
work, we clearly cluster the attention heatmaps into significantly different
patterns through unsupervised clustering on top of a set of proposed features,
which corroborates with previous observations. We further study their
corresponding functions through analytical study. In addition, our proposed
features can be used to explain and calibrate different attention heads in
Transformer models.
- Abstract(参考訳): 近年のマルチヘッドアテンション機構の研究は、特にBERTのような事前学習モデルにおいて、そのメカニズムの様々な側面を分析する上でのヒューリスティックスと手がかりを示している。
研究の多くはタスクや隠れ状態の探索に重点を置いており、過去の研究ではヒューリスティックな分析手法による注意行動の原始的なパターンが発見されているが、注意パターンに特有のより体系的な分析は原始的のままである。
本研究では,従来の観測と相関する一連の特徴のセットの上に,教師なしクラスタリングを行うことにより,アテンション・ヒートマップを著しく異なるパターンにクラスタリングする。
さらに,解析研究を通じて,それらの機能についても検討する。
さらに,提案する機能はトランスフォーマモデルにおける注意ヘッドの異なる説明と校正に利用できる。
関連論文リスト
- On the Anatomy of Attention [0.0]
本稿では、機械学習モデルについて体系的に関連付け、推論するために、カテゴリ理論図式形式を導入する。
我々の図は直感的にアーキテクチャを提示するが、重要な詳細を欠くことなく、モデル間の自然な関係はグラフィカルな変換によって捉えられる。
論文 参考訳(メタデータ) (2024-07-02T16:50:26Z) - Attention Diversification for Domain Generalization [92.02038576148774]
畳み込みニューラルネットワーク(CNN)は、識別的特徴を学習する際の満足度を実証している。
目に見えないドメインに適用する場合、最先端のモデルは通常、ドメインシフトによってエラーを起こしやすい。
そこで本研究では,モデル内およびモデル間アテンションの多角化を協調的に行う,新しいアテンションの多様化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-09T09:15:21Z) - A General Survey on Attention Mechanisms in Deep Learning [7.5537115673774275]
この調査は、文献で提案されている最も重要な注意機構の概要を提供する。
種々の注意機構は、一般的な注意モデル、一様表記法、および注意機構の包括的分類法からなる枠組みを用いて説明される。
論文 参考訳(メタデータ) (2022-03-27T10:06:23Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Building Interpretable Models for Business Process Prediction using
Shared and Specialised Attention Mechanisms [5.607831842909669]
我々は、解釈可能なモデルを構築することにより、予測プロセス分析における「ブラックボックス」問題に対処する。
本稿では,特定のプロセスイベントが予測に与える影響を捉えるイベントアテンションと,その予測に影響を及ぼすイベントの属性を明らかにする属性アテンションの2つのタイプを提案する。
論文 参考訳(メタデータ) (2021-09-03T10:17:05Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z) - Bayesian Sparse Factor Analysis with Kernelized Observations [67.60224656603823]
多視点問題は潜在変数モデルに直面することができる。
高次元問題と非線形問題は伝統的にカーネルメソッドによって扱われる。
両アプローチを単一モデルにマージすることを提案する。
論文 参考訳(メタデータ) (2020-06-01T14:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。