論文の概要: A Statistical Theory of Gated Attention through the Lens of Hierarchical Mixture of Experts
- arxiv url: http://arxiv.org/abs/2602.01468v1
- Date: Sun, 01 Feb 2026 22:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.801408
- Title: A Statistical Theory of Gated Attention through the Lens of Hierarchical Mixture of Experts
- Title(参考訳): 専門家の階層的混成レンズによるゲーテッド注意の統計的理論
- Authors: Viet Nguyen, Tuan Minh Pham, Thinh Cao, Tan Dinh, Huy Nguyen, Nhat Ho, Alessandro Rinaldo,
- Abstract要約: ゲーテッドアテンションは、標準アテンションにおける低ランクマッピングの表現性を高めることを実証的に実証されている。
有向注意行列や多頭部自己注意行列の各項目は、専門家の階層的な混合として記述できることを示す。
- 参考スコア(独自算出の注目度): 80.98474052840929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention has greatly contributed to the success of the widely used Transformer architecture by enabling learning from data with long-range dependencies. In an effort to improve performance, a gated attention model that leverages a gating mechanism within the multi-head self-attention has recently been proposed as a promising alternative. Gated attention has been empirically demonstrated to increase the expressiveness of low-rank mapping in standard attention and even to eliminate the attention sink phenomenon. Despite its efficacy, a clear theoretical understanding of gated attention's benefits remains lacking in the literature. To close this gap, we rigorously show that each entry in a gated attention matrix or a multi-head self-attention matrix can be written as a hierarchical mixture of experts. By recasting learning as an expert estimation problem, we demonstrate that gated attention is more sample-efficient than multi-head self-attention. In particular, while the former needs only a polynomial number of data points to estimate an expert, the latter requires exponentially many data points to achieve the same estimation error. Furthermore, our analysis also provides a theoretical justification for why gated attention yields higher performance when a gate is placed at the output of the scaled dot product attention or the value map rather than at other positions in the multi-head self-attention architecture.
- Abstract(参考訳): 長期的な依存関係を持つデータから学習できるようにすることで、広く使用されているTransformerアーキテクチャの成功に、セルフアテンションが大きく貢献している。
性能向上のために,マルチヘッド自己注意におけるゲーティング機構を活用するゲートアテンションモデルが,近年,有望な代替手段として提案されている。
注視は、標準注視における低ランクマッピングの表現性を高め、注視シンク現象を排除し、実証的に実証されている。
その効果にもかかわらず、注意力の利点に関する明確な理論的理解は文学に欠けているままである。
このギャップを埋めるために、ゲートアテンション行列やマルチヘッド・セルフアテンション行列の各エントリが、専門家の階層的な混合として記述できることを厳格に示す。
専門家推定問題として学習を再キャストすることにより,多面的自己意識よりも有意な注意がサンプリング効率が高いことを示す。
特に、前者は専門家を推定するためにデータポイントの多項式数しか必要としないが、後者は同じ推定誤差を達成するために指数関数的に多くのデータポイントを必要とする。
さらに,本分析は,多頭部自己注意アーキテクチャにおける他の位置よりも,スケールしたドット積の注目値や値マップの出力にゲートが配置された場合,ゲートアテンションがより高い性能を示す理由を理論的に正当化する。
関連論文リスト
- Superiority of Multi-Head Attention in In-Context Linear Regression [39.469021333473435]
精度の高い埋め込み次元を持つマルチヘッドアテンションは、シングルヘッドアテンションよりも優れていることを示すために、正確な理論的解析を行う。
一般に、シングルヘッドの注意よりもマルチヘッドの注意が好ましい。
論文 参考訳(メタデータ) (2024-01-30T20:29:06Z) - Linear Log-Normal Attention with Unbiased Concentration [3.034257650900382]
本研究では,注意行列の分布と集中度を解析し,自己注意機構について検討した。
本稿では,これらの量を計測し,新たな自己注意機構である線形ログNormal Attentionを提案する。
ポピュラーな自然言語ベンチマークの実験結果から,提案した線形ログNormal Attentionは,他の線形化アテンションよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2023-11-22T17:30:41Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文 参考訳(メタデータ) (2021-03-05T00:39:05Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。