論文の概要: Specialization of softmax attention heads: insights from the high-dimensional single-location model
- arxiv url: http://arxiv.org/abs/2603.03993v1
- Date: Wed, 04 Mar 2026 12:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.301212
- Title: Specialization of softmax attention heads: insights from the high-dimensional single-location model
- Title(参考訳): ソフトマックスアテンションヘッドの特殊化--高次元単一位置モデルによる考察
- Authors: M. Sagitova, O. Duranthon, L. Zdeborová,
- Abstract要約: SGD下でのマルチヘッドソフトマックスアテンションのトレーニングダイナミクスについて検討した。
我々はソフトマックス-1が無関係な頭部からのノイズを著しく低減することを示した。
この設定で最適な予測性能を実現するベイズ・ソフトマックスアテンションを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-head attention enables transformer models to represent multiple attention patterns simultaneously. Empirically, head specialization emerges in distinct stages during training, while many heads remain redundant and learn similar representations. We propose a theoretical model capturing this phenomenon, based on the multi-index and single-location regression frameworks. In the first part, we analyze the training dynamics of multi-head softmax attention under SGD, revealing an initial unspecialized phase followed by a multi-stage specialization phase in which different heads sequentially align with latent signal directions. In the second part, we study the impact of attention activation functions on performance. We show that softmax-1 significantly reduces noise from irrelevant heads. Finally, we introduce the Bayes-softmax attention, which achieves optimal prediction performance in this setting.
- Abstract(参考訳): マルチヘッドアテンションにより、トランスフォーマーモデルは複数のアテンションパターンを同時に表現できる。
経験的に、ヘッドスペシャライゼーションは訓練中に異なる段階に現れるが、多くのヘッドは冗長であり、同様の表現を学ぶ。
本稿では,この現象を捉えた理論的モデルを提案する。
第1部では、SGD下でのマルチヘッドソフトマックスアテンションのトレーニングダイナミクスを分析し、初期未特定フェーズと、異なるヘッドが逐次遅延信号方向と整列する多段階特殊化フェーズを明らかにした。
第2部では、注意活性化関数がパフォーマンスに与える影響について検討する。
我々はソフトマックス-1が無関係な頭部からのノイズを著しく低減することを示した。
最後に,この設定において最適な予測性能を実現するベイズ・ソフトマックスアテンションを提案する。
関連論文リスト
- SAS: Simulated Attention Score [75.1409882298863]
我々は,多数の注目ヘッドと1頭あたりの隠れ特徴次元をシミュレートしながら,コンパクトなモデルサイズを維持するSAS(Simulated Attention Score)を導入する。
各種データセットとタスクに関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-07-10T12:16:16Z) - Beyond Parallelism: Synergistic Computational Graph Effects in Multi-Head Attention [6.670253494063657]
大規模言語モデル(LLM)の成功を支える主要なディープラーニングアーキテクチャであるTransformer Networkのマルチヘッドアテンション
しかし、単なる並列処理を超えて、マルチヘッド対シングルヘッドアテンションの理論的優位性は未解明のままである。
我々は,フィードフォワード指向非巡回グラフ (DAG) として機能し,共通のシンク状態を持つ,潜在的なシナジスティックな計算グラフのシステムとして,マルチヘッドの注意を再構築した。
論文 参考訳(メタデータ) (2025-06-28T11:35:31Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。
埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。
本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:45:15Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Superiority of Multi-Head Attention in In-Context Linear Regression [39.469021333473435]
精度の高い埋め込み次元を持つマルチヘッドアテンションは、シングルヘッドアテンションよりも優れていることを示すために、正確な理論的解析を行う。
一般に、シングルヘッドの注意よりもマルチヘッドの注意が好ましい。
論文 参考訳(メタデータ) (2024-01-30T20:29:06Z) - A Dynamic Head Importance Computation Mechanism for Neural Machine
Translation [22.784419165117512]
複数のアテンションヘッドを使用する並列アテンション機構は、様々な用途でTransformerモデルの性能を向上させる。
本研究では,入力に対する頭部の重要度を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点をあてる。
モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、パフォーマンスを即興で向上する。
論文 参考訳(メタデータ) (2021-08-03T09:16:55Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。