Fugu-MT 論文翻訳(概要): Eigen Analysis of Self-Attention and its Reconstruction from Partial Computation

論文の概要: Eigen Analysis of Self-Attention and its Reconstruction from Partial Computation

arxiv url: http://arxiv.org/abs/2106.08823v1
Date: Wed, 16 Jun 2021 14:38:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-17 17:15:33.982280
Title: Eigen Analysis of Self-Attention and its Reconstruction from Partial Computation
Title（参考訳）: 自己拘束の固有解析と部分計算による再構成
Authors: Srinadh Bhojanapalli, Ayan Chakrabarti, Himanshu Jain, Sanjiv Kumar, Michal Lukasik, Andreas Veit
Abstract要約: ドット積に基づく自己注意を用いて計算した注意点のグローバルな構造について検討する。注意点の変動の大部分は低次元固有空間にあることがわかった。トークンペアの部分的な部分集合に対してのみスコアを計算し、それを用いて残りのペアのスコアを推定する。
参考スコア（独自算出の注目度）: 58.80806716024701
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State-of-the-art transformer models use pairwise dot-product based self-attention, which comes at a computational cost quadratic in the input sequence length. In this paper, we investigate the global structure of attention scores computed using this dot product mechanism on a typical distribution of inputs, and study the principal components of their variation. Through eigen analysis of full attention score matrices, as well as of their individual rows, we find that most of the variation among attention scores lie in a low-dimensional eigenspace. Moreover, we find significant overlap between these eigenspaces for different layers and even different transformer models. Based on this, we propose to compute scores only for a partial subset of token pairs, and use them to estimate scores for the remaining pairs. Beyond investigating the accuracy of reconstructing attention scores themselves, we investigate training transformer models that employ these approximations, and analyze the effect on overall accuracy. Our analysis and the proposed method provide insights into how to balance the benefits of exact pair-wise attention and its significant computational expense.
Abstract（参考訳）: State-of-the-art Transformerモデルは、入力シーケンス長の計算コストが2倍になるペアワイズドット積ベースの自己アテンションを使用する。本稿では,この点生成機構を用いて計算した注目点のグローバルな構造を入力の典型的な分布について検討し,その変動の主成分について検討する。注意点行列と個々の行の固有解析により,注目点の変動の大部分は低次元の固有空間にあることがわかった。さらに、異なる層に対する固有空間と異なるトランスモデルの間に大きな重なりがあることが分かる。そこで本研究では,トークンペアの部分集合に対してのみスコアを計算し,残りのペアのスコアを推定する手法を提案する。注意点の再構成の精度を調査するだけでなく,これらの近似を用いた変圧器モデルの訓練を行い,その効果を総合的に分析する。分析と提案手法は、正確な対の注意力の利点と計算コストのバランスをとる方法についての知見を提供する。

関連論文リスト

Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文参考訳（メタデータ） (2024-09-20T07:41:47Z)
Spectral Self-supervised Feature Selection [7.052728135831165]
教師なし特徴選択のための自己教師付きグラフベースアプローチを提案する。提案手法のコアは,グラフラプラシアンの固有ベクトルに単純な処理ステップを適用することで,ロバストな擬似ラベルを計算することである。我々のアプローチは、外れ値や複雑な部分構造の存在など、困難なシナリオに対して堅牢であることが示されている。
論文参考訳（メタデータ） (2024-07-12T07:29:08Z)
Are queries and keys always relevant? A case study on Transformer wave functions [0.0]
ドット製品アテンションメカニズム(ドット製品アテンションメカニズム)は、元々自然言語処理(NLP)タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。本稿では,変分波動関数のパラメトリゼーションの特定の領域において,トランスフォーマーの適応性について検討する。
論文参考訳（メタデータ） (2024-05-29T08:32:37Z)
Deciphering 'What' and 'Where' Visual Pathways from Spectral Clustering of Layer-Distributed Neural Representations [15.59251297818324]
本稿では,ニューラルネットワークのアクティベーションに含まれる情報をグループ化する手法を提案する。すべてのレイヤの機能を利用して、モデルのどの部分が関連する情報を含んでいるのかを推測する必要をなくします。
論文参考訳（メタデータ） (2023-12-11T01:20:34Z)
Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文参考訳（メタデータ） (2022-05-25T17:37:08Z)
SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-25T14:13:44Z)
Factor Analysis, Probabilistic Principal Component Analysis, Variational Inference, and Variational Autoencoder: Tutorial and Survey [5.967999555890417]
因子分析、確率的主成分分析(PCA)、変分推論、変分オートエンコーダ(VAE)に関するチュートリアルおよび調査論文。彼らは、すべてのデータポイントが低次元の潜伏因子から生成されるか、または引き起こされると仮定する。推論と生成動作のために、これらのモデルは、データ空間における新しいデータポイントの生成にも使用できる。
論文参考訳（メタデータ） (2021-01-04T01:29:09Z)
Linear Classifier Combination via Multiple Potential Functions [0.6091702876917279]
決定境界からクラスセントロイドまでの距離との距離に基づいてスコアリング関数を計算する新しい概念を提案する。重要な性質は、提案されたスコア関数がすべての線形基底分類器に対して同じ性質を持つことである。
論文参考訳（メタデータ） (2020-10-02T08:11:51Z)
Nonparametric Score Estimators [49.42469547970041]
未知分布によって生成されたサンプルの集合からスコアを推定することは確率モデルの推論と学習における基本的なタスクである。正規化非パラメトリック回帰の枠組みの下で、これらの推定器の統一的なビューを提供する。カールフリーカーネルと高速収束による計算効果を享受する反復正規化に基づくスコア推定器を提案する。
論文参考訳（メタデータ） (2020-05-20T15:01:03Z)
Asymptotic Analysis of an Ensemble of Randomly Projected Linear Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文参考訳（メタデータ） (2020-04-17T12:47:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。