論文の概要: Attention Sinks Induce Gradient Sinks
- arxiv url: http://arxiv.org/abs/2603.17771v1
- Date: Wed, 18 Mar 2026 14:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.752006
- Title: Attention Sinks Induce Gradient Sinks
- Title(参考訳): アテンション・シンクはグラディエント・シンクを誘導する
- Authors: Yihong Chen, Quanming Yao,
- Abstract要約: 因果マスクの下では、注意シンクが顕著な勾配濃度を誘導できることを示す。
大規模な活性化は、この局所的な勾配圧力に対する適応応答として理解することができる。
これらの結果は、勾配シンクがアテンションシンクと大規模なアクティベーションをリンクする重要なトレーニングタイムメディエータである、という解釈を支持する。
- 参考スコア(独自算出の注目度): 41.85762183893736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention sinks and massive activations are recurring and closely related phenomena in Transformer models. Existing studies have largely focused on the forward pass, making it unclear whether their connection is direct or mediated by a training-time mechanism. We study this question from the perspective of backpropagation. Empirically and theoretically, we show that under causal mask, attention sinks can induce pronounced gradient concentration, which we term gradient sinks. Furthermore, in pre-norm architectures with RMSNorm, massive activations can be understood as an adaptive response to this localized gradient pressure during training. To test this hypothesis, we introduce V-scale, a modification that adjusts value-path backpropagated gradients. In pretrained V-scale models, attention sinks are preserved whereas massive activations are suppressed. These results support the interpretation that gradient sink is a key training-time mediator linking attention sinks and massive activations.
- Abstract(参考訳): インテンションシンクと大規模なアクティベーションは、トランスフォーマーモデルにおいて繰り返し発生し、密接に関連する現象である。
既存の研究は、フォワードパスに主に焦点を合わせており、それらの接続が直接的であるか、あるいはトレーニング時のメカニズムによって媒介されているかは明らかになっていない。
我々はこの問題をバックプロパゲーションの観点から研究する。
経験的および理論的には、因果マスクの下では、注意シンクは、勾配シンク(勾配シンク)と呼ばれる顕著な勾配濃度を誘導することができる。
さらに、RMSNormを用いたプレノームアーキテクチャでは、トレーニング中のこの局所的な勾配圧力に対する適応応答として、大規模なアクティベーションが理解できる。
この仮説をテストするために、値-パスのバックプロパゲート勾配を調整する修正であるV-scaleを導入する。
事前訓練されたVスケールモデルでは、アテンションシンクが保存され、大規模なアクティベーションが抑制される。
これらの結果は、勾配シンクがアテンションシンクと大規模なアクティベーションをリンクする重要なトレーニングタイムメディエータである、という解釈を支持する。
関連論文リスト
- How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective [67.08306259095778]
モデルがゼロ位置のトークンを認識できるように簡単なメカニズムを同定し、2つの変圧器ブロック内で注意シンクを誘導する。
スクラッチからトレーニングされた30B A3B MoEモデルからのトレーニングトレースを分析することで、このメカニズムはトレーニングの初期段階に現れ、最初の2層に集中するようになる。
論文 参考訳(メタデータ) (2026-02-04T11:10:34Z) - Spectral Gradient Descent Mitigates Anisotropy-Driven Misalignment: A Case Study in Phase Retrieval [13.218607858857295]
スペクトル勾配法は、スケールを捨てながら方向情報を保存することによって勾配の更新を変更する。
非線形位相探索モデルの動的解析により,これらの利得のメカニズムを解明する。
論文 参考訳(メタデータ) (2026-01-30T07:12:58Z) - Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin [41.97400057649291]
本研究は,残水流における大規模活性化の形成にともなって,注目流と圧縮谷との間に驚くべき関連性を示すものである。
本研究では,LLMが大規模アクティベーションによる注意・表現圧縮を制御し,その計算を深く整理する方法を説明するために,情報フローの混合圧縮・微細化理論を提案する。
論文 参考訳(メタデータ) (2025-10-07T21:27:24Z) - Generative Model Inversion Through the Lens of the Manifold Hypothesis [98.37040155914595]
モデル反転攻撃(MIA)は、訓練されたモデルからクラス表現型サンプルを再構成することを目的としている。
最近の生成的MIAは、生成的敵ネットワークを使用して、反転過程を導く画像の事前学習を行う。
論文 参考訳(メタデータ) (2025-09-24T14:39:25Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。