論文の概要: A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training
- arxiv url: http://arxiv.org/abs/2601.22966v1
- Date: Fri, 30 Jan 2026 13:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.469658
- Title: A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training
- Title(参考訳): 注意と残留シンクの統一的視点:変圧器訓練に外乱駆動リスケーリングが不可欠である
- Authors: Zihan Qiu, Zeyu Huang, Kaiyue Wen, Peng Jin, Bo Zheng, Yuxin Zhou, Haofeng Huang, Zekun Wang, Xiao Li, Huaqing Zhang, Yang Xu, Haoran Lian, Siqi Zhang, Rui Men, Jianwei Zhang, Ivan Titov, Dayiheng Liu, Jingren Zhou, Junyang Lin,
- Abstract要約: 外接線は正規化と共に機能する。
アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。
外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
- 参考スコア(独自算出の注目度): 86.64715217940274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the functional role of emergent outliers in large language models, specifically attention sinks (a few tokens that consistently receive large attention logits) and residual sinks (a few fixed dimensions with persistently large activations across most tokens). We hypothesize that these outliers, in conjunction with the corresponding normalizations (\textit{e.g.}, softmax attention and RMSNorm), effectively rescale other non-outlier components. We term this phenomenon \textit{outlier-driven rescaling} and validate this hypothesis across different model architectures and training token counts. This view unifies the origin and mitigation of both sink types. Our main conclusions and observations include: (1) Outliers function jointly with normalization: removing normalization eliminates the corresponding outliers but degrades training stability and performance; directly clipping outliers while retaining normalization leads to degradation, indicating that outlier-driven rescaling contributes to training stability. (2) Outliers serve more as rescale factors rather than contributors, as the final contributions of attention and residual sinks are significantly smaller than those of non-outliers. (3) Outliers can be absorbed into learnable parameters or mitigated via explicit gated rescaling, leading to improved training performance (average gain of 2 points) and enhanced quantization robustness (1.2 points degradation under W4A4 quantization).
- Abstract(参考訳): 本研究では,大規模言語モデルにおける創発的外乱器の機能的役割,特に注意シンク(注目ロジットを常に受けるいくつかのトークン)と残留シンク(ほとんどのトークンに対して持続的に大きなアクティベーションを持ついくつかの固定次元)について検討する。
これらのオフリエは、対応する正規化 (\textit{e g }, softmax attention, RMSNorm) とともに、他の非アウトリエ成分を効果的に再スケールする。
この現象をtextit{outlier-driven rescaling} と呼び、異なるモデルアーキテクチャにまたがってこの仮説を検証し、トークン数をトレーニングする。
この見解は、両方のシンクタイプの起源と緩和を統一する。
1) 正常化は正常化と共に機能する: 正規化を除去するが、トレーニングの安定性と性能を低下させる; 正規化を保ちながらアウトリエを直接切断することは、トレーニングの安定性に寄与することを示す。
2) コントリビュータというよりは, コントリビュータというよりも, インテンションと残留シンクの最終的なコントリビューションが, 非インタプライヤのコントリビュータよりもはるかに小さいため, 再スケール要因として機能する。
3) 学習可能なパラメータに吸収したり、明示的なゲート再スケーリングによって緩和したりすることで、トレーニング性能(平均2点ゲイン)が向上し、量子化ロバスト性(W4A4量子化下で1.2点劣化)が向上する。
関連論文リスト
- Attention Projection Mixing with Exogenous Anchors [0.0]
早期注意投影の層間再利用はデータの効率を向上させるが、構造的な衝突を引き起こす。
この衝突は、内部アンカー設計の隠れた制限であることを示す。
逐次レイヤスタックの外でアンカープロジェクションを学習することで競合を解決するExoFormerを提案する。
論文 参考訳(メタデータ) (2026-01-13T01:52:19Z) - STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models [11.965535230928372]
Storeは,3つのコアイノベーションに基づいて構築された,統一的でスケーラブルなトークンベースのランキングフレームワークである。
我々のフレームワークは、予測精度(オンラインCTR 2.71%、AUC 1.195%)とトレーニング効率(1.84スループット)を継続的に改善します。
論文 参考訳(メタデータ) (2025-11-24T06:20:02Z) - UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning [57.081646768835704]
ユーザ仕様や法的フレームワークは、しばしば、大きな言語モデル(LLM)を含む、事前訓練されたモデルから削除される情報を必要とする。
これは、既に訓練済みのモデルからデータポイントのセットを削除または"偽造"する必要がある。
本研究では,非学習時の副次的損傷を軽減するための手法に依存しないデータ選択フレームワークUPCOREを提案する。
論文 参考訳(メタデータ) (2025-02-20T22:51:10Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Regularized Linear Regression for Binary Classification [20.710343135282116]
正規化線形回帰は、トレーニングセットがノイズラベルを持つ二項分類問題に対して有望なアプローチである。
十分な正則化強度に対して、最適重みは反対符号の2つの値の周りに集中していることを示す。
多くの場合、各重みの1ビットに対する「圧縮」が性能の損失を極めて少なくする。
論文 参考訳(メタデータ) (2023-11-03T23:18:21Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。