論文の概要: Limitations of Normalization in Attention Mechanism
- arxiv url: http://arxiv.org/abs/2508.17821v1
- Date: Mon, 25 Aug 2025 09:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.706473
- Title: Limitations of Normalization in Attention Mechanism
- Title(参考訳): 注意機構における正規化の限界
- Authors: Timur Mudarisov, Mikhail Burtsev, Tatiana Petrova, Radu State,
- Abstract要約: 選択されたトークンの数が増えるにつれて、情報的トークンを識別する能力は低下することを示す。
また,ソフトマックスの正規化による勾配感度は,特に低温条件下でのトレーニングにおいて課題となることを示した。
- 参考スコア(独自算出の注目度): 3.878743360150155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the limitations of the normalization in attention mechanisms. We begin with a theoretical framework that enables the identification of the model's selective ability and the geometric separation involved in token selection. Our analysis includes explicit bounds on distances and separation criteria for token vectors under softmax scaling. Through experiments with pre-trained GPT-2 model, we empirically validate our theoretical results and analyze key behaviors of the attention mechanism. Notably, we demonstrate that as the number of selected tokens increases, the model's ability to distinguish informative tokens declines, often converging toward a uniform selection pattern. We also show that gradient sensitivity under softmax normalization presents challenges during training, especially at low temperature settings. These findings advance current understanding of softmax-based attention mechanism and motivate the need for more robust normalization and selection strategies in future attention architectures.
- Abstract(参考訳): 本稿では,注意機構における正規化の限界について検討する。
まず、モデルの選択能力とトークン選択に関わる幾何学的分離の識別を可能にする理論的枠組みから始める。
本分析は,ソフトマックススケーリングにおけるトークンベクトルの距離と分離基準の明示的境界を含む。
事前学習したGPT-2モデルを用いて実験を行い、理論的結果の実証実験を行い、注意機構の鍵となる挙動を解析した。
特に、選択されたトークンの数が増えるにつれて、情報的トークンを識別する能力は低下し、しばしば一様選択パターンに収束することを示した。
また,ソフトマックスの正規化による勾配感度は,特に低温条件下でのトレーニングにおいて課題となることを示した。
これらの知見は、ソフトマックスに基づくアテンションメカニズムの現在の理解を促進し、将来のアテンションアーキテクチャにおけるより堅牢な正規化と選択戦略の必要性を動機付けている。
関連論文リスト
- Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Optimizing Attention with Mirror Descent: Generalized Max-Margin Token Selection [6.759148939470332]
アルゴリズムは、$ell_p$-normの目的を持つハードマージンSVMに収束することを示す。
具体的には、これらのアルゴリズムは、$ell_p$-normの目的を持つ一般化されたハードマージンSVMに収束することを示す。
論文 参考訳(メタデータ) (2024-10-18T16:32:06Z) - Benign Overfitting in Token Selection of Attention Mechanism [34.316270145027616]
ラベルノイズを伴う分類問題における注意機構の学習力学と一般化能力について検討した。
本稿では,信号対雑音比(SNR)の特性から,アテンション機構のトークン選択が過度に適合することを示す。
我々の研究は、オーバーフィッティングの初期段階の後に一般化の獲得が遅れていることも示している。
論文 参考訳(メタデータ) (2024-09-26T08:20:05Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。