Fugu-MT 論文翻訳(概要): Reorganizing attention-space geometry with expressive attention

論文の概要: Reorganizing attention-space geometry with expressive attention

arxiv url: http://arxiv.org/abs/2407.18601v2
Date: Wed, 08 Jan 2025 09:30:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 16:10:19.344129
Title: Reorganizing attention-space geometry with expressive attention
Title（参考訳）: 表現的注意を伴う注意空間幾何学の再編成
Authors: Claudius Gros,
Abstract要約: 本稿では, 平方ドット積である $(mathbfQTmathbfK)2$ に基づく表現的注意 (EA) について検討する。 EAは、追加の計算コストやメモリ要件なしに、注意ベースのコードに導入することができる。
参考スコア（独自算出の注目度）: 2.7195102129095003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Attention regulates information transfer between tokens. For this, query and key vectors are compared, typically in terms of a scalar product, $\mathbf{Q}^T\mathbf{K}$, together with a subsequent softmax normalization. In geometric terms, the standard dot-product attention (DPA) leads to large/small attention weights for parallel/antiparallel queries and keys. Here we study expressive attention (EA), which is based on $(\mathbf{Q}^T\mathbf{K})^2$, the squared dot product. In this case, attention is enhanced when query and key are either parallel or antiparallel, and suppressed for orthogonal configurations. EA can be introduced into any attention-based code without additional compute costs or memory requirements. For a series of autoregressive prediction tasks, we find that expressive attention performs at least as well as vanilla DPA. Increasing task complexity, EA is observed to outperform DPA with increasing margins, which also holds for multi-task settings. For a given model size, EA manages to achieve 100% performance for a range of complexity levels not accessible to DPA. Our results show that it is possible to reorganize the geometry of the matching condition in the space of attention heads without loss of performance.
Abstract（参考訳）: 注意はトークン間の情報転送を規制する。これに対し、クエリとキーベクトルは、通常、スカラー積 $\mathbf{Q}^T\mathbf{K}$ とその後のソフトマックス正規化で比較される。幾何学的には、標準的なドット積アテンション(DPA)は、並列/反並列クエリとキーに対する大きな/小さなアテンション重みをもたらす。ここでは、平方ドット積である $(\mathbf{Q}^T\mathbf{K})^2$ に基づく表現的注意(EA)について検討する。この場合、クエリとキーが並列または反並列である場合、注意が高まり、直交構成が抑制される。 EAは、追加の計算コストやメモリ要件なしに、注意ベースのコードに導入することができる。一連の自己回帰予測タスクにおいて、表現的注意力は少なくともバニラDPAと同様に機能することがわかった。タスクの複雑さが増すにつれて、EAはマルチタスク設定にも耐えうるマージンの増加とともにDPAを上回ることが観察される。与えられたモデルサイズに対して、EAはDPAにアクセスできないさまざまな複雑さレベルに対して100%のパフォーマンスを達成することができました。この結果から,注目ヘッドの空間における整合条件の幾何を性能の損失なく再編成できることが示唆された。

関連論文リスト

Learning to Attribute with Attention [75.61481181755744]
本稿では,異なる注目頭部の注意重みを特徴として扱うことを提案する。このようにして、属性に注意重みを効果的に活用する方法を学ぶことができる。提案手法であるAtribution with Attention (AT2) は,多くのアブリケーションを含むアプローチと確実に同等に機能する。
論文参考訳（メタデータ） (2025-04-18T15:36:28Z)
ZETA: Leveraging Z-order Curves for Efficient Top-k Attention [22.90397380324185]
本稿では,全シーケンスに対する過去のトークンの並列クエリを可能にするZETAを提案する。 ZETA は合成textscMulti-Query Associative Recall タスクにおける標準注意性能と一致する。
論文参考訳（メタデータ） (2025-01-24T15:33:05Z)
Computational Lower Bounds for Regret Minimization in Normal-Form Games [68.66209476382213]
乗算重み更新などの既存の学習アルゴリズムが最適に近いことを示す。結果はKothari と Mehta が提案したアルゴリズムの枠組みで得られた。
論文参考訳（メタデータ） (2024-11-04T00:39:52Z)
SEA: Sparse Linear Attention with Estimated Attention Mask [51.22399593954608]
長い連続性は、注意操作の二次的な複雑さのために問題を引き起こす。従来の研究は、注意行列をスパース化または線形に近似することで複雑さを低下させることを目的としていた。推定アテンションマスクを用いたSparse linear attentionを提案する。
論文参考訳（メタデータ） (2023-10-03T03:56:26Z)
High-quality Task Division for Large-scale Entity Alignment [28.001266850114643]
DivEAは、代替の最先端ソリューションよりも高いEAパフォーマンスを達成する。我々は、EAタスクの局所性原理と訓練されたEAモデルのパワーを生かした他の発見手法を考案する。
論文参考訳（メタデータ） (2022-08-22T14:46:38Z)
Multi-block-Single-probe Variance Reduced Estimator for Coupled Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文参考訳（メタデータ） (2022-07-18T12:03:26Z)
ClusterEA: Scalable Entity Alignment with Stochastic Training and Normalized Mini-batch Similarities [26.724014626196322]
ClusterEAは、ミニバッチ上で正規化メソッドを活用することで、EAモデルをスケールアップし、その結果を向上することができる。最初にEA向けの大規模なGNNをトレーニングし、エンティティの埋め込みを生成する。埋め込みに基づいて、非常に重なり合ったミニバッチをサンプリングするための新しいClusterSampler戦略が提案されている。
論文参考訳（メタデータ） (2022-05-20T17:29:50Z)
Focused Jump-and-Repair Constraint Handling for Fixed-Parameter Tractable Graph Problems Closed Under Induced Subgraphs [3.495114525631289]
グラフ問題における不可能な子孫の確率的修復に使用できる調整されたジャンプ・アンド・リペア操作を備えた(1+1)EAについて検討する。
論文参考訳（メタデータ） (2022-03-25T19:36:02Z)
Optimal Correlated Equilibria in General-Sum Extensive-Form Games: Fixed-Parameter Algorithms, Hardness, and Two-Sided Column-Generation [78.48747645545944]
ワイドフォームゲームにおいて,様々な種類の最適平衡を求める問題について検討する。これら3つの概念のすべてに最適な平衡を計算するための新しいアルゴリズムを導入する。
論文参考訳（メタデータ） (2022-03-14T15:21:18Z)
cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文参考訳（メタデータ） (2022-02-17T17:53:48Z)
ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。 ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文参考訳（メタデータ） (2021-10-06T03:53:25Z)
Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文参考訳（メタデータ） (2021-07-12T22:43:11Z)
$O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文参考訳（メタデータ） (2020-06-08T18:30:12Z)
Best Arm Identification for Cascading Bandits in the Fixed Confidence Setting [81.70513857417106]
CascadeBAIを設計し、分析する。これは、$K$アイテムのベストセットを見つけるアルゴリズムである。 CascadeBAIの時間的複雑さの上限は、決定的な分析課題を克服することによって導かれる。その結果,カスケードBAIの性能は,時間的複雑性の低い境界の導出により,いくつかの実践的状況において最適であることが示唆された。
論文参考訳（メタデータ） (2020-01-23T16:47:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。