Fugu-MT 論文翻訳(概要): Climbing the Complexity Ladder with Expressive Attention

論文の概要: Climbing the Complexity Ladder with Expressive Attention

arxiv url: http://arxiv.org/abs/2407.18601v1
Date: Fri, 26 Jul 2024 08:41:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 14:00:25.382142
Title: Climbing the Complexity Ladder with Expressive Attention
Title（参考訳）: 表現的注意を伴う複雑度ラダーの登上
Authors: Claudius Gros,
Abstract要約: 本稿では, 平方ドット積である $(mathbfQTmathbfK)2$ に基づく表現的注意 (EA) について検討する。一連の自己回帰予測タスクにおいて、EAは少なくとも標準メカニズムであるドット・プロダクティヴ・アテンション(DPA)と同様に機能することがわかった。
参考スコア（独自算出の注目度）: 2.7195102129095003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Attention involves comparing query and key vectors in terms of a scalar product, $\mathbf{Q}^T\mathbf{K}$, together with a subsequent softmax normalization. Classicaly, parallel/orthogonal/antiparallel queries and keys lead to large/intermediate/small attention weights. Here we study expressive attention (EA), which is based on $(\mathbf{Q}^T\mathbf{K})^2$, the squared dot product. In this case attention is enhanced when query and key are either parallel or antiparallel, and suppressed for orthogonal configurations. For a series of autoregressive prediction tasks, we find that EA performs at least as well as the standard mechanism, dot-product attention (DPA). Increasing task complexity, EA is observed to outperform DPA with increasing margins, which also holds for multi-task settings. For a given model size, EA manages to achieve 100\% performance for a range of complexity levels not accessible to DPA.
Abstract（参考訳）: 注意すべき点は、クエリとキーベクトルをスカラー積である$\mathbf{Q}^T\mathbf{K}$とその後のソフトマックス正規化で比較することである。古典的には、並列/直交/反並列クエリとキーは、大きな/中間/小さな注意重みにつながる。ここでは、平方ドット積である $(\mathbf{Q}^T\mathbf{K})^2$ に基づく表現的注意(EA)について検討する。この場合、クエリとキーが並列または反並列である場合、注意が高まり、直交構成が抑制される。一連の自己回帰予測タスクにおいて、EAは少なくとも標準メカニズムであるドット・プロダクティヴ・アテンション(DPA)と同様に機能することがわかった。タスクの複雑さが増すにつれて、EAはマルチタスク設定にも耐えうるマージンの増加とともにDPAを上回ることが観察される。与えられたモデルサイズに対して、EAは、DPAにアクセスできないさまざまな複雑さレベルに対して、100\%のパフォーマンスを達成することができる。

関連論文リスト

Rectifying Magnitude Neglect in Linear Attention [57.097694292570885]
リニアアテンションは、標準的なSoftmaxアテンションに比べて大幅にパフォーマンスが低下する。我々は,線形注意の計算を改良し,クエリの規模を完全に組み込むMagnitude-Aware Linear Attention (MALA)を提案する。
論文参考訳（メタデータ） (2025-07-01T11:49:05Z)
Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。 LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文参考訳（メタデータ） (2025-06-16T03:00:40Z)
Learning to Attribute with Attention [75.61481181755744]
本稿では,異なる注目頭部の注意重みを特徴として扱うことを提案する。このようにして、属性に注意重みを効果的に活用する方法を学ぶことができる。提案手法であるAtribution with Attention (AT2) は,多くのアブリケーションを含むアプローチと確実に同等に機能する。
論文参考訳（メタデータ） (2025-04-18T15:36:28Z)
ZETA: Leveraging Z-order Curves for Efficient Top-k Attention [22.90397380324185]
本稿では,全シーケンスに対する過去のトークンの並列クエリを可能にするZETAを提案する。 ZETA は合成textscMulti-Query Associative Recall タスクにおける標準注意性能と一致する。
論文参考訳（メタデータ） (2025-01-24T15:33:05Z)
Computational Lower Bounds for Regret Minimization in Normal-Form Games [68.66209476382213]
乗算重み更新などの既存の学習アルゴリズムが最適に近いことを示す。結果はKothari と Mehta が提案したアルゴリズムの枠組みで得られた。
論文参考訳（メタデータ） (2024-11-04T00:39:52Z)
SEA: Sparse Linear Attention with Estimated Attention Mask [51.22399593954608]
長い連続性は、注意操作の二次的な複雑さのために問題を引き起こす。従来の研究は、注意行列をスパース化または線形に近似することで複雑さを低下させることを目的としていた。推定アテンションマスクを用いたSparse linear attentionを提案する。
論文参考訳（メタデータ） (2023-10-03T03:56:26Z)
High-quality Task Division for Large-scale Entity Alignment [28.001266850114643]
DivEAは、代替の最先端ソリューションよりも高いEAパフォーマンスを達成する。我々は、EAタスクの局所性原理と訓練されたEAモデルのパワーを生かした他の発見手法を考案する。
論文参考訳（メタデータ） (2022-08-22T14:46:38Z)
Multi-block-Single-probe Variance Reduced Estimator for Coupled Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文参考訳（メタデータ） (2022-07-18T12:03:26Z)
ClusterEA: Scalable Entity Alignment with Stochastic Training and Normalized Mini-batch Similarities [26.724014626196322]
ClusterEAは、ミニバッチ上で正規化メソッドを活用することで、EAモデルをスケールアップし、その結果を向上することができる。最初にEA向けの大規模なGNNをトレーニングし、エンティティの埋め込みを生成する。埋め込みに基づいて、非常に重なり合ったミニバッチをサンプリングするための新しいClusterSampler戦略が提案されている。
論文参考訳（メタデータ） (2022-05-20T17:29:50Z)
Focused Jump-and-Repair Constraint Handling for Fixed-Parameter Tractable Graph Problems Closed Under Induced Subgraphs [3.495114525631289]
グラフ問題における不可能な子孫の確率的修復に使用できる調整されたジャンプ・アンド・リペア操作を備えた(1+1)EAについて検討する。
論文参考訳（メタデータ） (2022-03-25T19:36:02Z)
Optimal Correlated Equilibria in General-Sum Extensive-Form Games: Fixed-Parameter Algorithms, Hardness, and Two-Sided Column-Generation [78.48747645545944]
ワイドフォームゲームにおいて,様々な種類の最適平衡を求める問題について検討する。これら3つの概念のすべてに最適な平衡を計算するための新しいアルゴリズムを導入する。
論文参考訳（メタデータ） (2022-03-14T15:21:18Z)
cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文参考訳（メタデータ） (2022-02-17T17:53:48Z)
ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。 ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文参考訳（メタデータ） (2021-10-06T03:53:25Z)
Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文参考訳（メタデータ） (2021-07-12T22:43:11Z)
$O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文参考訳（メタデータ） (2020-06-08T18:30:12Z)
Best Arm Identification for Cascading Bandits in the Fixed Confidence Setting [81.70513857417106]
CascadeBAIを設計し、分析する。これは、$K$アイテムのベストセットを見つけるアルゴリズムである。 CascadeBAIの時間的複雑さの上限は、決定的な分析課題を克服することによって導かれる。その結果,カスケードBAIの性能は,時間的複雑性の低い境界の導出により,いくつかの実践的状況において最適であることが示唆された。
論文参考訳（メタデータ） (2020-01-23T16:47:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。