論文の概要: Attention Sinks: A 'Catch, Tag, Release' Mechanism for Embeddings
- arxiv url: http://arxiv.org/abs/2502.00919v2
- Date: Mon, 22 Sep 2025 16:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:44.714226
- Title: Attention Sinks: A 'Catch, Tag, Release' Mechanism for Embeddings
- Title(参考訳): 注意シンク: 埋め込みのための「キャッチ、タグ、リリース」メカニズム
- Authors: Stephen Zhang, Mustafa Khan, Vardan Papyan,
- Abstract要約: 大型言語モデル(LLM)は、注意シンクと呼ばれるいくつかの特定のトークンに注意を集中することが多い。
一般的な例として、最初のトークン、プロンプト非依存のシンク、句読点がある。
その普遍性にもかかわらず、機能、意味的役割、注意の起源はいまだに理解されていない。
- 参考スコア(独自算出の注目度): 16.950215926321558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often concentrate their attention on a few specific tokens referred to as attention sinks. Common examples include the first token, a prompt-independent sink, and punctuation tokens, which are prompt-dependent. While the tokens causing the sinks often lack direct semantic meaning, the presence of the sinks is critical for model performance, particularly under model compression and KV-caching. Despite their ubiquity, the function, semantic role, and origin of attention sinks -- especially those beyond the first token -- remain poorly understood. In this work, we conduct a comprehensive investigation demonstrating that attention sinks: catch a sequence of tokens, tag them using a common direction in embedding space, and release them back into the residual stream, where tokens are later retrieved based on the tags they have acquired. Probing experiments reveal these tags carry semantically meaningful information, such as the truth of a statement. These findings extend to reasoning models, where the mechanism spans more heads and explains greater variance in embeddings, or recent models with query-key normalization, where sinks remain just as prevalent. To encourage future theoretical analysis, we introduce a minimal problem which can be solved through the 'catch, tag, release' mechanism, and where it emerges through training.
- Abstract(参考訳): 大型言語モデル(LLM)は、注意シンクと呼ばれるいくつかの特定のトークンに注意を集中することが多い。
一般的な例としては、最初のトークン、プロンプト非依存のシンク、プロンプト依存の句読点などがある。
シンクの原因となるトークンは直接の意味を欠くことが多いが、シンクの存在はモデル性能、特にモデル圧縮やKVキャッシングにおいて重要である。
その普遍性にもかかわらず、機能、意味的役割、注意シンク(特に最初のトークンを超えるもの)の起源はよく分かっていない。
本研究では, トークンの列を捕捉し, 埋め込み空間の共通方向を用いてタグ付けし, 後から取得したタグに基づいてトークンを回収した残ストリームに戻すという, 注意が沈むことを示す包括的調査を行う。
調査実験では、これらのタグは、ステートメントの真実のような意味的に意味のある情報を持っていることが明らかになった。
これらの発見は、より多くの頭部にまたがる推論モデルや、シンクが一般的である最近のクエリキー正規化モデルにも及んでいる。
将来の理論的分析を促進するため、我々は「キャッチ、タグ、リリース」メカニズムによって解決できる最小限の問題を導入し、トレーニングを通じてそれがどこから現れるかを示す。
関連論文リスト
- Artifacts and Attention Sinks: Structured Approximations for Efficient Vision Transformers [8.486148475471271]
ビジョントランスフォーマーは幅広いアプリケーションにまたがる強力なツールとして登場したが、内部の動作は部分的にしか理解されていない。
大量のトークン – 注目シンクとして機能する極めて高いアクティベーション規範を持つトークン – と,推論中に副産物として現れるアーティファクトトークン – の現象について検討する。
我々は、線形時間と空間における自己注意を近似する訓練不要なFast Nystr"om Attention (FNA)を導入する。
論文 参考訳(メタデータ) (2025-07-21T19:29:03Z) - Vision Transformers Don't Need Trained Registers [17.412430704896455]
疎いニューロンの集合は、外れ値のトークンに高ノルムの活性化を集中させる役割を担っている。
これらのアーティファクトを緩和するために、トレーニング不要のアプローチを作成します。
その結果,テスト時のレジスタは,テスト時のレジスタトークンの役割を効果的に担っていることが示唆された。
論文 参考訳(メタデータ) (2025-06-09T17:59:57Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる
我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。
デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文 参考訳(メタデータ) (2025-03-14T07:46:33Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - Self-attention Networks Localize When QK-eigenspectrum Concentrates [9.379890125442335]
自己認識メカニズムは、現代の機械学習で一般的である。
2つの議論が、モデルのパフォーマンスに注意を向けるローカライゼーションを結び付けている。
我々は,小さな固有スペクトルの分散が注意を局所化させることを示した。
論文 参考訳(メタデータ) (2024-02-03T09:35:53Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Analyzing Chain-of-Thought Prompting in Large Language Models via
Gradient-based Feature Attributions [10.621564997491808]
チェーン・オブ・シークレット(CoT)のプロンプトは、大規模言語モデルの精度を実証的に改善することが示されている。
我々は、CoTプロンプトが特定の入力トークンに割り当てる相対的重要性に影響を及ぼすかどうかを検討する。
以上の結果から,CoTプロンプトは意味的関連トークンによるサリエンシスコアの規模を増大させるものではないが,サリエンシスコアのロバスト性を高め,モデル出力の摂動や変動に疑問を投げかけることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T08:51:30Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Identifying and Mitigating Spurious Correlations for Improving
Robustness in NLP Models [19.21465581259624]
多くの問題は、刺激的な相関を利用したモデルや、トレーニングデータとタスクラベルの間のショートカットに起因する可能性がある。
本論文では,NLPモデルにおけるこのような素因的相関を大規模に同定することを目的とする。
提案手法は,スケーラブルな「ショートカット」の集合を効果的かつ効率的に同定し,複数のアプリケーションにおいてより堅牢なモデルに導かれることを示す。
論文 参考訳(メタデータ) (2021-10-14T21:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。