論文の概要: Reorganizing attention-space geometry with expressive attention
- arxiv url: http://arxiv.org/abs/2407.18601v2
- Date: Wed, 08 Jan 2025 09:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:54:02.925474
- Title: Reorganizing attention-space geometry with expressive attention
- Title(参考訳): 表現的注意を伴う注意空間幾何学の再編成
- Authors: Claudius Gros,
- Abstract要約: 本稿では, 平方ドット積である $(mathbfQTmathbfK)2$ に基づく表現的注意 (EA) について検討する。
EAは、追加の計算コストやメモリ要件なしに、注意ベースのコードに導入することができる。
- 参考スコア(独自算出の注目度): 2.7195102129095003
- License:
- Abstract: Attention regulates information transfer between tokens. For this, query and key vectors are compared, typically in terms of a scalar product, $\mathbf{Q}^T\mathbf{K}$, together with a subsequent softmax normalization. In geometric terms, the standard dot-product attention (DPA) leads to large/small attention weights for parallel/antiparallel queries and keys. Here we study expressive attention (EA), which is based on $(\mathbf{Q}^T\mathbf{K})^2$, the squared dot product. In this case, attention is enhanced when query and key are either parallel or antiparallel, and suppressed for orthogonal configurations. EA can be introduced into any attention-based code without additional compute costs or memory requirements. For a series of autoregressive prediction tasks, we find that expressive attention performs at least as well as vanilla DPA. Increasing task complexity, EA is observed to outperform DPA with increasing margins, which also holds for multi-task settings. For a given model size, EA manages to achieve 100% performance for a range of complexity levels not accessible to DPA. Our results show that it is possible to reorganize the geometry of the matching condition in the space of attention heads without loss of performance.
- Abstract(参考訳): 注意はトークン間の情報転送を規制する。
これに対し、クエリとキーベクトルは、通常、スカラー積 $\mathbf{Q}^T\mathbf{K}$ とその後のソフトマックス正規化で比較される。
幾何学的には、標準的なドット積アテンション(DPA)は、並列/反並列クエリとキーに対する大きな/小さなアテンション重みをもたらす。
ここでは、平方ドット積である $(\mathbf{Q}^T\mathbf{K})^2$ に基づく表現的注意(EA)について検討する。
この場合、クエリとキーが並列または反並列である場合、注意が高まり、直交構成が抑制される。
EAは、追加の計算コストやメモリ要件なしに、注意ベースのコードに導入することができる。
一連の自己回帰予測タスクにおいて、表現的注意力は少なくともバニラDPAと同様に機能することがわかった。
タスクの複雑さが増すにつれて、EAはマルチタスク設定にも耐えうるマージンの増加とともにDPAを上回ることが観察される。
与えられたモデルサイズに対して、EAはDPAにアクセスできないさまざまな複雑さレベルに対して100%のパフォーマンスを達成することができました。
この結果から,注目ヘッドの空間における整合条件の幾何を性能の損失なく再編成できることが示唆された。
関連論文リスト
- ZETA: Leveraging Z-order Curves for Efficient Top-k Attention [22.90397380324185]
本稿では,全シーケンスに対する過去のトークンの並列クエリを可能にするZETAを提案する。
ZETA は合成textscMulti-Query Associative Recall タスクにおける標準注意性能と一致する。
論文 参考訳(メタデータ) (2025-01-24T15:33:05Z) - SEA: Sparse Linear Attention with Estimated Attention Mask [51.22399593954608]
長い連続性は、注意操作の二次的な複雑さのために問題を引き起こす。
従来の研究は、注意行列をスパース化または線形に近似することで複雑さを低下させることを目的としていた。
推定アテンションマスクを用いたSparse linear attentionを提案する。
論文 参考訳(メタデータ) (2023-10-03T03:56:26Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - High-quality Task Division for Large-scale Entity Alignment [28.001266850114643]
DivEAは、代替の最先端ソリューションよりも高いEAパフォーマンスを達成する。
我々は、EAタスクの局所性原理と訓練されたEAモデルのパワーを生かした他の発見手法を考案する。
論文 参考訳(メタデータ) (2022-08-22T14:46:38Z) - ClusterEA: Scalable Entity Alignment with Stochastic Training and
Normalized Mini-batch Similarities [26.724014626196322]
ClusterEAは、ミニバッチ上で正規化メソッドを活用することで、EAモデルをスケールアップし、その結果を向上することができる。
最初にEA向けの大規模なGNNをトレーニングし、エンティティの埋め込みを生成する。
埋め込みに基づいて、非常に重なり合ったミニバッチをサンプリングするための新しいClusterSampler戦略が提案されている。
論文 参考訳(メタデータ) (2022-05-20T17:29:50Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。