論文の概要: Climbing the Complexity Ladder with Expressive Attention
- arxiv url: http://arxiv.org/abs/2407.18601v1
- Date: Fri, 26 Jul 2024 08:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:00:25.382142
- Title: Climbing the Complexity Ladder with Expressive Attention
- Title(参考訳): 表現的注意を伴う複雑度ラダーの登上
- Authors: Claudius Gros,
- Abstract要約: 本稿では, 平方ドット積である $(mathbfQTmathbfK)2$ に基づく表現的注意 (EA) について検討する。
一連の自己回帰予測タスクにおいて、EAは少なくとも標準メカニズムであるドット・プロダクティヴ・アテンション(DPA)と同様に機能することがわかった。
- 参考スコア(独自算出の注目度): 2.7195102129095003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention involves comparing query and key vectors in terms of a scalar product, $\mathbf{Q}^T\mathbf{K}$, together with a subsequent softmax normalization. Classicaly, parallel/orthogonal/antiparallel queries and keys lead to large/intermediate/small attention weights. Here we study expressive attention (EA), which is based on $(\mathbf{Q}^T\mathbf{K})^2$, the squared dot product. In this case attention is enhanced when query and key are either parallel or antiparallel, and suppressed for orthogonal configurations. For a series of autoregressive prediction tasks, we find that EA performs at least as well as the standard mechanism, dot-product attention (DPA). Increasing task complexity, EA is observed to outperform DPA with increasing margins, which also holds for multi-task settings. For a given model size, EA manages to achieve 100\% performance for a range of complexity levels not accessible to DPA.
- Abstract(参考訳): 注意すべき点は、クエリとキーベクトルをスカラー積である$\mathbf{Q}^T\mathbf{K}$とその後のソフトマックス正規化で比較することである。
古典的には、並列/直交/反並列クエリとキーは、大きな/中間/小さな注意重みにつながる。
ここでは、平方ドット積である $(\mathbf{Q}^T\mathbf{K})^2$ に基づく表現的注意(EA)について検討する。
この場合、クエリとキーが並列または反並列である場合、注意が高まり、直交構成が抑制される。
一連の自己回帰予測タスクにおいて、EAは少なくとも標準メカニズムであるドット・プロダクティヴ・アテンション(DPA)と同様に機能することがわかった。
タスクの複雑さが増すにつれて、EAはマルチタスク設定にも耐えうるマージンの増加とともにDPAを上回ることが観察される。
与えられたモデルサイズに対して、EAは、DPAにアクセスできないさまざまな複雑さレベルに対して、100\%のパフォーマンスを達成することができる。
関連論文リスト
- Computational Lower Bounds for Regret Minimization in Normal-Form Games [68.66209476382213]
乗算重み更新などの既存の学習アルゴリズムが最適に近いことを示す。
結果はKothari と Mehta が提案したアルゴリズムの枠組みで得られた。
論文 参考訳(メタデータ) (2024-11-04T00:39:52Z) - SEA: Sparse Linear Attention with Estimated Attention Mask [51.22399593954608]
長い連続性は、注意操作の二次的な複雑さのために問題を引き起こす。
従来の研究は、注意行列をスパース化または線形に近似することで複雑さを低下させることを目的としていた。
推定アテンションマスクを用いたSparse linear attentionを提案する。
論文 参考訳(メタデータ) (2023-10-03T03:56:26Z) - High-quality Task Division for Large-scale Entity Alignment [28.001266850114643]
DivEAは、代替の最先端ソリューションよりも高いEAパフォーマンスを達成する。
我々は、EAタスクの局所性原理と訓練されたEAモデルのパワーを生かした他の発見手法を考案する。
論文 参考訳(メタデータ) (2022-08-22T14:46:38Z) - Multi-block-Single-probe Variance Reduced Estimator for Coupled
Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。
本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文 参考訳(メタデータ) (2022-07-18T12:03:26Z) - ClusterEA: Scalable Entity Alignment with Stochastic Training and
Normalized Mini-batch Similarities [26.724014626196322]
ClusterEAは、ミニバッチ上で正規化メソッドを活用することで、EAモデルをスケールアップし、その結果を向上することができる。
最初にEA向けの大規模なGNNをトレーニングし、エンティティの埋め込みを生成する。
埋め込みに基づいて、非常に重なり合ったミニバッチをサンプリングするための新しいClusterSampler戦略が提案されている。
論文 参考訳(メタデータ) (2022-05-20T17:29:50Z) - Focused Jump-and-Repair Constraint Handling for Fixed-Parameter
Tractable Graph Problems Closed Under Induced Subgraphs [3.495114525631289]
グラフ問題における不可能な子孫の確率的修復に使用できる調整されたジャンプ・アンド・リペア操作を備えた(1+1)EAについて検討する。
論文 参考訳(メタデータ) (2022-03-25T19:36:02Z) - Optimal Correlated Equilibria in General-Sum Extensive-Form Games: Fixed-Parameter Algorithms, Hardness, and Two-Sided Column-Generation [78.48747645545944]
ワイドフォームゲームにおいて,様々な種類の最適平衡を求める問題について検討する。
これら3つの概念のすべてに最適な平衡を計算するための新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2022-03-14T15:21:18Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Best Arm Identification for Cascading Bandits in the Fixed Confidence
Setting [81.70513857417106]
CascadeBAIを設計し、分析する。これは、$K$アイテムのベストセットを見つけるアルゴリズムである。
CascadeBAIの時間的複雑さの上限は、決定的な分析課題を克服することによって導かれる。
その結果,カスケードBAIの性能は,時間的複雑性の低い境界の導出により,いくつかの実践的状況において最適であることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T16:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。