論文の概要: The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks
- arxiv url: http://arxiv.org/abs/2603.05498v1
- Date: Thu, 05 Mar 2026 18:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.389978
- Title: The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks
- Title(参考訳): スパイク、スパース、シンク:大量活性化と注意シンクの解剖
- Authors: Shangwen Sun, Alfredo Canziani, Yann LeCun, Jiachen Zhu,
- Abstract要約: トランスフォーマー言語モデルにおける2つの繰り返し現象について検討する。
少数のトークンがいくつかのチャネルで極端な外れ値を示し、注意が沈み込み、特定のトークンが意味的関連性に関係なく不均等な注意質量を引き付けるような大規模なアクティベーション。
- 参考スコア(独自算出の注目度): 32.60957674853853
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We study two recurring phenomena in Transformer language models: massive activations, in which a small number of tokens exhibit extreme outliers in a few channels, and attention sinks, in which certain tokens attract disproportionate attention mass regardless of semantic relevance. Prior work observes that these phenomena frequently co-occur and often involve the same tokens, but their functional roles and causal relationship remain unclear. Through systematic experiments, we show that the co-occurrence is largely an architectural artifact of modern Transformer design, and that the two phenomena serve related but distinct functions. Massive activations operate globally: they induce near-constant hidden representations that persist across layers, effectively functioning as implicit parameters of the model. Attention sinks operate locally: they modulate attention outputs across heads and bias individual heads toward short-range dependencies. We identify the pre-norm configuration as the key choice that enables the co-occurrence, and show that ablating it causes the two phenomena to decouple.
- Abstract(参考訳): 我々はトランスフォーマー言語モデルにおける2つの繰り返し現象について検討する: 少数のトークンがいくつかのチャネルで極端な外れ値を示す大規模なアクティベーションと、特定のトークンが意味的関連に関係なく不均等な注意質量を引き付ける注意シンクである。
先行研究では、これらの現象はしばしば共起し、しばしば同じトークンを含むが、それらの機能的役割と因果関係は未だ不明である。
体系的な実験を通して、共起は現代のトランスフォーマー設計の建築的成果物であり、この2つの現象は関連するが異なる機能であることを示す。
大規模なアクティベーションは世界規模で運用される: モデルが暗黙のパラメータとして機能し、層全体に持続する、ほぼ一定に近い隠蔽表現を誘導する。
注意シンクは局所的に動作し、頭を通して注意出力を変調し、短い範囲の依存関係に向かって個人をバイアスする。
我々は、プレノーム構成を共起を可能にする鍵となる選択として認識し、それを非難することで2つの現象が分離されることを示す。
関連論文リスト
- Krause Synchronization Transformers [63.8469912831803]
トランスフォーマーにおける自己注意は、グローバルに正規化されたソフトマックスの重みに依存しており、すべてのトークンがすべての層で影響を競う。
クラーズ・アテンション(Krause Attention)は、有界信頼コンセンサス・ダイナミクスにインスパイアされた注意機構である。
論文 参考訳(メタデータ) (2026-02-12T03:47:53Z) - Attention Needs to Focus: A Unified Perspective on Attention Allocation [37.34801068995858]
Transformer アーキテクチャは現代のLarge Language Models (LLM) の基盤である
標準的な注意機構は、表現的崩壊と注意シンクという、文書化された問題に悩まされている。
どちらも共通のルート(不適切な注意割り当て)にトレース可能である、と論じて、統一された視点を提示します。
論文 参考訳(メタデータ) (2026-01-01T08:39:15Z) - Deconstructing Attention: Investigating Design Principles for Effective Language Modeling [37.92951508140559]
トランスフォーマー言語モデルは、ドット積の注意機構によって広く評価されている。
この研究は、これらの原則を緩和する制御された変種を設計することで、注意を体系的に分解する。
驚くべきことに、単独で失敗する変種でさえ、標準的な注意を引いた時に堅牢なパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-10-13T16:42:14Z) - Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models [12.112842686827669]
トランスフォーマーベースのモデルは、幅広いタスクにわたってシーケンス学習において顕著な能力を示している。
マルチタスク一般化能力の基盤となるメカニズムを明らかにするために,トランスフォーマーの階層的挙動について検討する。
我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。
論文 参考訳(メタデータ) (2025-06-02T17:39:31Z) - On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Self-attention Networks Localize When QK-eigenspectrum Concentrates [9.379890125442335]
自己認識メカニズムは、現代の機械学習で一般的である。
2つの議論が、モデルのパフォーマンスに注意を向けるローカライゼーションを結び付けている。
我々は,小さな固有スペクトルの分散が注意を局所化させることを示した。
論文 参考訳(メタデータ) (2024-02-03T09:35:53Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations [58.96953392466609]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
本稿では,因果アノテーションを用いて潜在表現を規則化するメトリクス学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Outliers Dimensions that Disrupt Transformers Are Driven by Frequency [79.22656609637525]
トークン周波数が異常現象に寄与することを示す。
また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。
論文 参考訳(メタデータ) (2022-05-23T15:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。