論文の概要: Reorganizing attention-space geometry with expressive attention
- arxiv url: http://arxiv.org/abs/2407.18601v2
- Date: Wed, 08 Jan 2025 09:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:54:02.925474
- Title: Reorganizing attention-space geometry with expressive attention
- Title(参考訳): 表現的注意を伴う注意空間幾何学の再編成
- Authors: Claudius Gros,
- Abstract要約: 本稿では, 平方ドット積である $(mathbfQTmathbfK)2$ に基づく表現的注意 (EA) について検討する。
EAは、追加の計算コストやメモリ要件なしに、注意ベースのコードに導入することができる。
- 参考スコア(独自算出の注目度): 2.7195102129095003
- License:
- Abstract: Attention regulates information transfer between tokens. For this, query and key vectors are compared, typically in terms of a scalar product, $\mathbf{Q}^T\mathbf{K}$, together with a subsequent softmax normalization. In geometric terms, the standard dot-product attention (DPA) leads to large/small attention weights for parallel/antiparallel queries and keys. Here we study expressive attention (EA), which is based on $(\mathbf{Q}^T\mathbf{K})^2$, the squared dot product. In this case, attention is enhanced when query and key are either parallel or antiparallel, and suppressed for orthogonal configurations. EA can be introduced into any attention-based code without additional compute costs or memory requirements. For a series of autoregressive prediction tasks, we find that expressive attention performs at least as well as vanilla DPA. Increasing task complexity, EA is observed to outperform DPA with increasing margins, which also holds for multi-task settings. For a given model size, EA manages to achieve 100% performance for a range of complexity levels not accessible to DPA. Our results show that it is possible to reorganize the geometry of the matching condition in the space of attention heads without loss of performance.
- Abstract(参考訳): 注意はトークン間の情報転送を規制する。
これに対し、クエリとキーベクトルは、通常、スカラー積 $\mathbf{Q}^T\mathbf{K}$ とその後のソフトマックス正規化で比較される。
幾何学的には、標準的なドット積アテンション(DPA)は、並列/反並列クエリとキーに対する大きな/小さなアテンション重みをもたらす。
ここでは、平方ドット積である $(\mathbf{Q}^T\mathbf{K})^2$ に基づく表現的注意(EA)について検討する。
この場合、クエリとキーが並列または反並列である場合、注意が高まり、直交構成が抑制される。
EAは、追加の計算コストやメモリ要件なしに、注意ベースのコードに導入することができる。
一連の自己回帰予測タスクにおいて、表現的注意力は少なくともバニラDPAと同様に機能することがわかった。
タスクの複雑さが増すにつれて、EAはマルチタスク設定にも耐えうるマージンの増加とともにDPAを上回ることが観察される。
与えられたモデルサイズに対して、EAはDPAにアクセスできないさまざまな複雑さレベルに対して100%のパフォーマンスを達成することができました。
この結果から,注目ヘッドの空間における整合条件の幾何を性能の損失なく再編成できることが示唆された。
関連論文リスト
- Computational Lower Bounds for Regret Minimization in Normal-Form Games [68.66209476382213]
乗算重み更新などの既存の学習アルゴリズムが最適に近いことを示す。
結果はKothari と Mehta が提案したアルゴリズムの枠組みで得られた。
論文 参考訳(メタデータ) (2024-11-04T00:39:52Z) - SEA: Sparse Linear Attention with Estimated Attention Mask [51.22399593954608]
長い連続性は、注意操作の二次的な複雑さのために問題を引き起こす。
従来の研究は、注意行列をスパース化または線形に近似することで複雑さを低下させることを目的としていた。
推定アテンションマスクを用いたSparse linear attentionを提案する。
論文 参考訳(メタデータ) (2023-10-03T03:56:26Z) - High-quality Task Division for Large-scale Entity Alignment [28.001266850114643]
DivEAは、代替の最先端ソリューションよりも高いEAパフォーマンスを達成する。
我々は、EAタスクの局所性原理と訓練されたEAモデルのパワーを生かした他の発見手法を考案する。
論文 参考訳(メタデータ) (2022-08-22T14:46:38Z) - Multi-block-Single-probe Variance Reduced Estimator for Coupled
Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。
本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文 参考訳(メタデータ) (2022-07-18T12:03:26Z) - ClusterEA: Scalable Entity Alignment with Stochastic Training and
Normalized Mini-batch Similarities [26.724014626196322]
ClusterEAは、ミニバッチ上で正規化メソッドを活用することで、EAモデルをスケールアップし、その結果を向上することができる。
最初にEA向けの大規模なGNNをトレーニングし、エンティティの埋め込みを生成する。
埋め込みに基づいて、非常に重なり合ったミニバッチをサンプリングするための新しいClusterSampler戦略が提案されている。
論文 参考訳(メタデータ) (2022-05-20T17:29:50Z) - Focused Jump-and-Repair Constraint Handling for Fixed-Parameter
Tractable Graph Problems Closed Under Induced Subgraphs [3.495114525631289]
グラフ問題における不可能な子孫の確率的修復に使用できる調整されたジャンプ・アンド・リペア操作を備えた(1+1)EAについて検討する。
論文 参考訳(メタデータ) (2022-03-25T19:36:02Z) - Optimal Correlated Equilibria in General-Sum Extensive-Form Games: Fixed-Parameter Algorithms, Hardness, and Two-Sided Column-Generation [78.48747645545944]
ワイドフォームゲームにおいて,様々な種類の最適平衡を求める問題について検討する。
これら3つの概念のすべてに最適な平衡を計算するための新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2022-03-14T15:21:18Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Best Arm Identification for Cascading Bandits in the Fixed Confidence
Setting [81.70513857417106]
CascadeBAIを設計し、分析する。これは、$K$アイテムのベストセットを見つけるアルゴリズムである。
CascadeBAIの時間的複雑さの上限は、決定的な分析課題を克服することによって導かれる。
その結果,カスケードBAIの性能は,時間的複雑性の低い境界の導出により,いくつかの実践的状況において最適であることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T16:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。