論文の概要: Limitations of Normalization in Attention Mechanism
- arxiv url: http://arxiv.org/abs/2508.17821v2
- Date: Mon, 20 Oct 2025 15:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.524892
- Title: Limitations of Normalization in Attention Mechanism
- Title(参考訳): 注意機構における正規化の限界
- Authors: Timur Mudarisov, Mikhail Burtsev, Tatiana Petrova, Radu State,
- Abstract要約: 選択されたトークンの数が増えるにつれて、情報的トークンを識別する能力は低下することを示す。
また,ソフトマックスの正規化による勾配感度は,特に低温条件下でのトレーニングにおいて課題となることを示した。
- 参考スコア(独自算出の注目度): 3.878743360150155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the limitations of the normalization in attention mechanisms. We begin with a theoretical framework that enables the identification of the model's selective ability and the geometric separation involved in token selection. Our analysis includes explicit bounds on distances and separation criteria for token vectors under softmax scaling. Through experiments with pre-trained GPT-2 model, we empirically validate our theoretical results and analyze key behaviors of the attention mechanism. Notably, we demonstrate that as the number of selected tokens increases, the model's ability to distinguish informative tokens declines, often converging toward a uniform selection pattern. We also show that gradient sensitivity under softmax normalization presents challenges during training, especially at low temperature settings. These findings advance current understanding of softmax-based attention mechanism and motivate the need for more robust normalization and selection strategies in future attention architectures.
- Abstract(参考訳): 本稿では,注意機構における正規化の限界について検討する。
まず、モデルの選択能力とトークン選択に関わる幾何学的分離の識別を可能にする理論的枠組みから始める。
本分析は,ソフトマックススケーリングにおけるトークンベクトルの距離と分離基準の明示的境界を含む。
事前学習したGPT-2モデルを用いて実験を行い、理論的結果の実証実験を行い、注意機構の鍵となる挙動を解析した。
特に、選択されたトークンの数が増えるにつれて、情報的トークンを識別する能力は低下し、しばしば一様選択パターンに収束することを示した。
また,ソフトマックスの正規化による勾配感度は,特に低温条件下でのトレーニングにおいて課題となることを示した。
これらの知見は、ソフトマックスに基づくアテンションメカニズムの現在の理解を促進し、将来のアテンションアーキテクチャにおけるより堅牢な正規化と選択戦略の必要性を動機付けている。
関連論文リスト
- Why Generate When You Can Transform? Unleashing Generative Attention for Dynamic Recommendation [9.365893765448366]
SR(Sequential Recommendation)は,ユーザエクスペリエンスのパーソナライズに焦点をあてる。
トランスフォーマーモデルは、その注意機構とともに、SRタスクにおいて支配的なアーキテクチャとなっている。
本稿では,変分オートエンコーダ(VAE)と拡散モデル(DM)の原理を基礎として,SRの2つの生成的注意モデルを紹介する。
論文 参考訳(メタデータ) (2025-08-04T04:33:26Z) - Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Optimizing Attention with Mirror Descent: Generalized Max-Margin Token Selection [6.759148939470332]
アルゴリズムは、$ell_p$-normの目的を持つハードマージンSVMに収束することを示す。
具体的には、これらのアルゴリズムは、$ell_p$-normの目的を持つ一般化されたハードマージンSVMに収束することを示す。
論文 参考訳(メタデータ) (2024-10-18T16:32:06Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Benign Overfitting in Token Selection of Attention Mechanism [34.316270145027616]
ラベルノイズを伴う分類問題における注意機構の学習力学と一般化能力について検討した。
本稿では,信号対雑音比(SNR)の特性から,アテンション機構のトークン選択が過度に適合することを示す。
我々の研究は、オーバーフィッティングの初期段階の後に一般化の獲得が遅れていることも示している。
論文 参考訳(メタデータ) (2024-09-26T08:20:05Z) - Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks [50.29356570858905]
本稿では,これらすべてのアーキテクチャの共通表現に関する原則的な調査を可能にする動的システムフレームワーク(DSF)について紹介する。
ソフトマックスアテンションと他のモデルクラスとの原理的比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。
このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。
論文 参考訳(メタデータ) (2024-05-24T17:19:57Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - On the Optimization and Generalization of Multi-head Attention [28.33164313549433]
マルチアテンションヘッドを用いた場合の潜在的な最適化と一般化の利点について検討する。
単層多層自己アテンションモデルの勾配差学習における収束と一般化の保証を導出する。
論文 参考訳(メタデータ) (2023-10-19T12:18:24Z) - Discovering Latent Causal Variables via Mechanism Sparsity: A New
Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。
潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文 参考訳(メタデータ) (2021-07-21T14:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。