論文の概要: Eigen Analysis of Self-Attention and its Reconstruction from Partial
Computation
- arxiv url: http://arxiv.org/abs/2106.08823v1
- Date: Wed, 16 Jun 2021 14:38:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:15:33.982280
- Title: Eigen Analysis of Self-Attention and its Reconstruction from Partial
Computation
- Title(参考訳): 自己拘束の固有解析と部分計算による再構成
- Authors: Srinadh Bhojanapalli, Ayan Chakrabarti, Himanshu Jain, Sanjiv Kumar,
Michal Lukasik, Andreas Veit
- Abstract要約: ドット積に基づく自己注意を用いて計算した注意点のグローバルな構造について検討する。
注意点の変動の大部分は低次元固有空間にあることがわかった。
トークンペアの部分的な部分集合に対してのみスコアを計算し、それを用いて残りのペアのスコアを推定する。
- 参考スコア(独自算出の注目度): 58.80806716024701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art transformer models use pairwise dot-product based
self-attention, which comes at a computational cost quadratic in the input
sequence length. In this paper, we investigate the global structure of
attention scores computed using this dot product mechanism on a typical
distribution of inputs, and study the principal components of their variation.
Through eigen analysis of full attention score matrices, as well as of their
individual rows, we find that most of the variation among attention scores lie
in a low-dimensional eigenspace. Moreover, we find significant overlap between
these eigenspaces for different layers and even different transformer models.
Based on this, we propose to compute scores only for a partial subset of token
pairs, and use them to estimate scores for the remaining pairs. Beyond
investigating the accuracy of reconstructing attention scores themselves, we
investigate training transformer models that employ these approximations, and
analyze the effect on overall accuracy. Our analysis and the proposed method
provide insights into how to balance the benefits of exact pair-wise attention
and its significant computational expense.
- Abstract(参考訳): State-of-the-art Transformerモデルは、入力シーケンス長の計算コストが2倍になるペアワイズドット積ベースの自己アテンションを使用する。
本稿では,この点生成機構を用いて計算した注目点のグローバルな構造を入力の典型的な分布について検討し,その変動の主成分について検討する。
注意点行列と個々の行の固有解析により,注目点の変動の大部分は低次元の固有空間にあることがわかった。
さらに、異なる層に対する固有空間と異なるトランスモデルの間に大きな重なりがあることが分かる。
そこで本研究では,トークンペアの部分集合に対してのみスコアを計算し,残りのペアのスコアを推定する手法を提案する。
注意点の再構成の精度を調査するだけでなく,これらの近似を用いた変圧器モデルの訓練を行い,その効果を総合的に分析する。
分析と提案手法は、正確な対の注意力の利点と計算コストのバランスをとる方法についての知見を提供する。
関連論文リスト
- Entrywise Inference for Causal Panel Data: A Simple and Instance-Optimal
Approach [32.253391125106674]
本研究では,予め規定されたカバレッジ保証を伴うエントリワイド信頼区間を構築するためのデータ駆動方式を開発する。
本分析は,行列記述モデルに適用したSVDアルゴリズムの一般的な推論ツールボックスに基づく。
論文 参考訳(メタデータ) (2024-01-24T18:58:18Z) - Deciphering 'What' and 'Where' Visual Pathways from Spectral Clustering
of Layer-Distributed Neural Representations [17.524421985810577]
本稿では,ニューラルネットワークのアクティベーションに含まれる情報をグループ化する手法を提案する。
すべてのレイヤの機能を利用して、モデルのどの部分が関連する情報を含んでいるのかを推測する必要をなくします。
論文 参考訳(メタデータ) (2023-12-11T01:20:34Z) - Spectral Estimators for Structured Generalized Linear Models via
Approximate Message Passing [31.58736590532443]
一般化線形モデルによる観測からパラメータ推定の問題を考える。
スペクトル法は単純だが効果的な推定法である。
我々は、所望のスペクトル推定器と一致する固定点を持つ近似メッセージパッシングに基づく新しい戦略を開発する。
論文 参考訳(メタデータ) (2023-08-28T11:49:23Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Factor Analysis, Probabilistic Principal Component Analysis, Variational
Inference, and Variational Autoencoder: Tutorial and Survey [5.967999555890417]
因子分析、確率的主成分分析(PCA)、変分推論、変分オートエンコーダ(VAE)に関するチュートリアルおよび調査論文。
彼らは、すべてのデータポイントが低次元の潜伏因子から生成されるか、または引き起こされると仮定する。
推論と生成動作のために、これらのモデルは、データ空間における新しいデータポイントの生成にも使用できる。
論文 参考訳(メタデータ) (2021-01-04T01:29:09Z) - Linear Classifier Combination via Multiple Potential Functions [0.6091702876917279]
決定境界からクラスセントロイドまでの距離との距離に基づいてスコアリング関数を計算する新しい概念を提案する。
重要な性質は、提案されたスコア関数がすべての線形基底分類器に対して同じ性質を持つことである。
論文 参考訳(メタデータ) (2020-10-02T08:11:51Z) - Model Fusion with Kullback--Leibler Divergence [58.20269014662046]
異種データセットから学習した後続分布を融合する手法を提案する。
我々のアルゴリズムは、融合モデルと個々のデータセット後部の両方に対する平均場仮定に依存している。
論文 参考訳(メタデータ) (2020-07-13T03:27:45Z) - Nonparametric Score Estimators [49.42469547970041]
未知分布によって生成されたサンプルの集合からスコアを推定することは確率モデルの推論と学習における基本的なタスクである。
正規化非パラメトリック回帰の枠組みの下で、これらの推定器の統一的なビューを提供する。
カールフリーカーネルと高速収束による計算効果を享受する反復正規化に基づくスコア推定器を提案する。
論文 参考訳(メタデータ) (2020-05-20T15:01:03Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。