論文の概要: On the Existence and Behaviour of Secondary Attention Sinks
- arxiv url: http://arxiv.org/abs/2512.22213v1
- Date: Mon, 22 Dec 2025 09:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.894534
- Title: On the Existence and Behaviour of Secondary Attention Sinks
- Title(参考訳): セカンダリアテンションシンクの存在と挙動について
- Authors: Jeffrey T. H. Wong, Cheng Zhang, Louis Mahon, Wayne Luk, Anton Isopoussu, Yiren Zhao,
- Abstract要約: 我々は,従来の研究で研究された流しと根本的に異なる二次流しという,注目流しの類を同定する。
主に中層に発生する二次的な沈み込みの存在は, 一定数の層に持続することができる。
大規模なモデルでは、シンクの位置と寿命はシンクレベルと呼ばれ、より決定論的かつ頻繁な方法で現れる。
- 参考スコア(独自算出の注目度): 21.79737660596527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention sinks are tokens, often the beginning-of-sequence (BOS) token, that receive disproportionately high attention despite limited semantic relevance. In this work, we identify a class of attention sinks, which we term secondary sinks, that differ fundamentally from the sinks studied in prior works, which we term primary sinks. While prior works have identified that tokens other than BOS can sometimes become sinks, they were found to exhibit properties analogous to the BOS token. Specifically, they emerge at the same layer, persist throughout the network and draw a large amount of attention mass. Whereas, we find the existence of secondary sinks that arise primarily in middle layers and can persist for a variable number of layers, and draw a smaller, but still significant, amount of attention mass. Through extensive experiments across 11 model families, we analyze where these secondary sinks appear, their properties, how they are formed, and their impact on the attention mechanism. Specifically, we show that: (1) these sinks are formed by specific middle-layer MLP modules; these MLPs map token representations to vectors that align with the direction of the primary sink of that layer. (2) The $\ell_2$-norm of these vectors determines the sink score of the secondary sink, and also the number of layers it lasts for, thereby leading to different impacts on the attention mechanisms accordingly. (3) The primary sink weakens in middle layers, coinciding with the emergence of secondary sinks. We observe that in larger-scale models, the location and lifetime of the sinks, together referred to as sink levels, appear in a more deterministic and frequent manner. Specifically, we identify three sink levels in QwQ-32B and six levels in Qwen3-14B.
- Abstract(参考訳): 注意シンク(英: Attention sinks)は、意味的関連性に制限があるにもかかわらず、不当に高い注目を集めるトークンであり、多くの場合、BOSトークンである。
本研究では,従来の研究で研究された流しと根本的に異なる二次流し,二次流しという種類の注意流しを同定する。
以前の研究では、BOS以外のトークンが時にシンクになる可能性があると特定されているが、それらはBOSトークンに類似した性質を示すことが判明した。
具体的には、同じ層に現れ、ネットワーク全体に持続し、大量の注意を惹きつける。
一方、主に中層に存在する二次的な沈み込みの存在は、様々な数の層に持続し、より小さいが、それでも重要な注意質量を引き出すことができる。
11のモデルファミリーにわたる広範な実験を通じて、これらの二次沈み込みの出現場所、その特性、どのように形成され、それらが注意機構に与える影響を分析する。
具体的には、(1)これらのシンクは特定の中層MLPモジュールによって形成され、これらのMLPは、その層の一次シンクの方向と整合するベクトルにトークン表現をマップする。
2)これらのベクトルの$\ell_2$-normは、二次シンクのシンクスコアと、持続する層数を決定し、それによって注意機構に異なる影響を与える。
(3) 第一の沈み込みは中層で弱まり、第二の沈み込みの出現と一致する。
大規模なモデルでは、シンクの位置と寿命はシンクレベルと呼ばれ、より決定論的かつ頻繁な方法で現れる。
具体的には,QwQ-32Bの3つのシンクレベルとQwen3-14Bの6つのレベルを同定する。
関連論文リスト
- OrthoRank: Token Selection via Sink Token Orthogonality for Efficient LLM inference [9.73180898820304]
近年の研究では、セマンティックな役割が限られているにもかかわらず、不当に高い注目を集めているシンクトークンが明らかにされている。
私たちはまず、シンクトークンと他のトークンとの関係を拡大し、その類似性を隠れた状態で探究する。
そこで本稿では,OrthoRankと呼ばれる動的トークン選択手法を提案する。
論文 参考訳(メタデータ) (2025-07-05T02:29:23Z) - On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - Attention Sinks: A 'Catch, Tag, Release' Mechanism for Embeddings [16.950215926321558]
大型言語モデル(LLM)は、注意シンクと呼ばれるいくつかの特定のトークンに注意を集中することが多い。
一般的な例として、最初のトークン、プロンプト非依存のシンク、句読点がある。
その普遍性にもかかわらず、機能、意味的役割、注意の起源はいまだに理解されていない。
論文 参考訳(メタデータ) (2025-02-02T21:15:07Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - On the Role of Attention Masks and LayerNorm in Transformers [55.81177251872377]
自己注意はトランスの鍵となるメカニズムである。
近年の研究では、純粋な自己意識は階級崩壊の度合いが増すことが示されている。
論文 参考訳(メタデータ) (2024-05-29T05:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。